【访谈】张云泉:从超算大国到超算强国,国产超算既要“顶天”,也要“立地”

原创
CIOAge
超算作为国家科研实力的体现,不仅是国家科技发展水平和综合国力的重要标志,对国家安全、经济和社会发展同样具有举足轻重的意义。

        超算作为国家科技战略的重要高地,无论其计算性能是从最初的1P,到现在常态5P,还是跨越到100P,再到1000P这样的惊人数字,过去它被视为“高大上”的科学神话,那么现在的超算距离我们更近一步。

  【51CTO记者 李玲玲 北京报道】“早期大家经验不足,业务水平也差,有时机器上来了,应用准备不足,出现闲置情况;有时机器先来了,软件开发不出来,一着急只能先用一堆小程序来跑,发挥不出超算的效益。”国家超算济南中心主任张云泉谈起超算的过往,感慨不已。

  我国超算迸发的第一道分水岭可以说始自2009年。那一年,科技部批准成立国家超算天津中心后正式揭开了超算发展的大幕。截止2017年,天津、济南、长沙、无锡、广州和深圳六家国家超算中心相继建成并投入运营。超算作为国家科研实力的体现,不仅是国家科技发展水平和综合国力的重要标志,对国家安全、经济和社会发展同样具有举足轻重的意义。

  但是,在国内超算发展的近二十年中,由于采取的是摸索式发展,加之建设、运营、市场化经验有限,导致实际发展与建设目标存在一定差距而非议不少。

  对此,张云泉主任并不回避。他坦言,“过去大家确实运营经验不足,导致超算难以发挥出真正的效益。但现在明显不同了,我们会提前摸清应用需求,也会提前培育用户和市场,且机器一旦就绪,很快就能出成果。现在大家也意识到软件的重要性。原来搞机器的人不重视,觉得只要机器跑起来,用不用的好是你的事,但现在发现不行,机器用不好,那下一台机器就没了。所以,大家的意识和理念都发生了显著变化,硬件和软件也基本能达到平衡。可以说,现在超算的整体运营情况越来越好。”

 

  让超算走下“神坛”

  目前,我国超算主要呈现“6+2”的建设格局,除6家国家超算中心之外,还有2家建设更早。

  长久以来,超算以超强的计算能力及超大存储容量普遍被认为只能用于国家高科技领域和尖端技术研究,很难进入民用市场。原因在于:

  一是高性能自然需要“天文数字”般的配套经费。以目前1P、5P的浮点性能,少则也要十几亿元,像下一个1000P规模的超算项目配套将达到30亿元。这也致使我国超算项目全聚集在经济实力较强的中东部省份城市。同时,少有民营企业能有如此经济实力和精力去运作。

  二是需求问题。“过去我们谈超算,人们都觉得这个东西曲高和寡,没什么用。地方政府也觉得这块牌子是负担,扛个牌子,要拿出那么多钱。”张云泉主任无奈地说。

  现在,科技主导的变革正在改变市场对超算的认识,越来越多的地方决策者也意识到超算的价值。“大家发现超算其实是个机会,它正在成为一种创新转型的要件,是一个高地。”张云泉主任认为,一旦有了这个平台,可以为地方经济发展带来更多的实惠:一是人才引进会更有吸引力;二是和国际交流的机会增多,无形中也会拉升当地的水平。“现在转一圈认识云计算、大数据之后,人们会发现超算其实才是最核心、最黑的科技。”

  “这是一个以计算力快速增长为特点的时代。”超算也迎来了大发展,“过去我们只做传统超算,现在也向多元化转型,除了支持超算外,还可以支持云计算、大数据,甚至人工智能,这些新兴科技其实都离不开超算能力。”

  张云泉主任一个切身的感受就是,“我们去跟有些地方政府部门接触,他们上来就说,‘我们先建产业园,然后再考虑云计算、大数据’,而不是说‘我要建个云计算中心’,他觉得‘那个没太大科技含量,一般企业都在做’,但超算不是一般人能做的。只要能做超算,云计算、大数据相对就比较容易切入。”

  显然,如张主任所言,当前新兴科技的快速发展也给超算带来了新的发展契机。

 

  超算世界的“三国演义”

  按照规划,六个国家超算中心各有侧重,其业务都主要服务于本地经济,再辐射周边区域。

  目前,六大中心的超算主要是三大系列,呈现“三二一”的分布格局:一是天河系列,部署在长沙、广州和天津三个中心;二是神威系列,部署在无锡和济南两地;三是比较早的曙光系列,部署在深圳中心。其中,神威系列走的是完全国产化的路线。在张云泉看来,当前神威处于最好的发展时期,“所用的国产众核处理器经过了大规模的验证,在国产超算里应该是最成熟的。”

  国产超算“三国演义”的建设格局基本形成。问题是这些年超算的发展并不完全尽如人意,就如何提高超算的机器利用率,真正发挥其核心价值备受人们关注。

  对此,张云泉主任认为,“国产超算想要发展,不一定要完全市场化经营,而应采取差额经营的作法。”他指出,中心运营经费应该有一部分是来自于政府(中央与地方财政共同承担)财政,差额部分让中心自己去经营,而不是“让超算中心完全自负盈亏,这个压力太大了,毕竟国内市场还没那么成熟。”

[[194916]]

国家超算济南中心主任张云泉

  “国家投建超算的目的,一是战略考虑,再一个是考虑带动地方经济活力和推动创新,至于‘怎么挣钱’,应结合起来,不应纯粹地将超算推向市场化。”他担心完全市场化经营的后果只会带来超算资源的分化,影响到国家战略,“往往超算成员的一些任务是属于战略任务,不能马上变现,你让他马上就去挣钱,为了挣钱,必然会去做一些比较短视的行为,比如做动漫一类,这势必导致超算资源被分化,进而对战略性高精尖技术研究的支持就会变弱,甚至导致超算的长期战略作用被削弱。”

  其实,目前市场上一些具备实力的云计算厂商确实也能提供部分中低端、小规模的高速计算服务,从性价比上,超算中心很难与之竞争。与其浪费资源,参与无谓的竞争,反而不如将精力投入在自身的优势领域上。“超算中心就应该更多地去做高端超算,做商业化做不了的超算,去支持国家大规模科学计算的基础研究,更多地往公益一类去做。”

  还有,当前超算所采用的机时费,超算中心也在不断探索新模式,比如转移支付。过去机时费是跟着课题走的,很分散,用户还要自己买机器;现在可以利用超算中心的机器设备,,用户只需向超算中心直接申请使用现成的计算资源就好。

  说到机时费,出于鼓励创新发展的目的,张云泉主任建议地方政府可以考虑出资购买机时,设立资源池,奖励给目标用户,鼓励其使用,而且这种方式的申请流程也比较快,更有利于鼓励用户用好超算,“一般用户用几十万的核,真的用不起,光电费一天就几十万元,还要包全机,可能算两天,钱就花没了。”

  鉴于超算比较高昂的使用费,想要激发这个市场的活力,让机器在它的生命周期内真正发价值,必然需要国家的扶持和投入。“如果只一味为了挣钱,去算一大堆小问题,真的太浪费了,也没有必要建超算。所以对超算中心的定位一定要准确,只需让中心去挣差额部分,比如一些市场活动,人员扩充成本,包括创业创收,都应该中心自己去负担。”

 

  找准用户,清晰定位

  走过弯路,必然会趋于理性。国产超算的发展也是如此。

  近两年,超算中心对用户的认识愈发清晰,也意识到“胡子眉毛一把抓”的粗放型发展模式并非最佳方法。

  眼下各超算中心的现状是,“为了将一台机器填满,什么都放,杂七杂八,搞得挺热闹,机器挺忙,使用率也很高,但实际产出并不高。所接项目都只是一些小芝麻,没有西瓜。”这样的作法势必导致一堆小课题占用了大量资源,大课题却计算资源不足,“几万个处理器资源都被小课题占用了,大课题老排不上队,发挥不出超算的作用”。张云泉主任说。

  意识到问题之后,超算中心也在找寻新的思路来解决此类问题。比如几百个小软件,给它们分配专门的小队列,而将大队列留给大用户,优先保证最大资源能够大规模变现。“我们就抓‘西瓜’,‘芝麻’留给商业去做。毕竟‘芝麻’好找,而大的‘西瓜’不好培养,一定专门给后者留一个最佳环境,将它培养大。”

  按照新的思路,现在超算中心普遍将用户划分为两类,即对时间不那么敏感,对价格敏感的是一般用户;而对时间很敏感、价格稍微贵一点不受影响的属于超算关注的重点用户。将两个用户市场剥离,超算中心只用来计算特别大的课题,小课题交给云厂商或超算中心自己的云平台去服务。

  一个向好的趋势是,市场逐渐认识到“计算资源是有限的,只有花钱,才能买到优先权,才能优先算,优先出成果。”毕竟全球科技创新竞争比的就是时间,所以超算平台恰恰是稀缺资源。事实上,除去国家补贴,现在超算中心的市场盈利能力也在提升,用户对机时费越来越认可,云计算的付费模式某种程度上也助推了超算收费模式的发展。

  服务意识的转变,收费模式的日趋成熟,都为超算的下一步发展奠定了基础。比如服务多样化。“未来在云端提供超级计算能力,将云计算与超算融合,也是一个新的发展趋势。因为很多用户有需求,希望能按实际需求配置一台机器给他,用完后就能释放掉,下次再需要,再买。这样做性价比更合适。用户宁可忍受一点点的性能损失,也不想付出高昂的成本去长期包机。”

 

  济南超算的多元化探索

  面对市场发展契机,济南超算中心又会选择一条怎样的差异化发展之路呢?

  对此,张云泉主任表示,济南中心未来也是要融合发展,将超算和云计算、大数据融合起来,在此基础上摸索一条多元化的发展道路。“我们一个是要适应技术变化,再一个要向用户提供多元化的服务接口。有的用户对时间不敏感,只是希望价格便宜些,那么他需要云计算一类的小规模计算,能够远程访问;还有很多新型计算,大数据的计算形态,它和传统信息计算又不一样。这种只需半精度,甚至低精度就可以。如果这类需求很大就必须适应这个变化。”

  发展方向一旦确定,于之配套的是产业生态的培养和扶持。近年来,济南中心在不惜挤出自有经费的情况下,强强联合中国计算机学会高性能计算专委会,一起积极去培育市场。

  比如带着神威的技术人员走入高校,一块做技术报告,进行科普宣讲“先得给别人讲明白超算是干什么的,价值在什么地方。让老百姓、让政府领导能理解这个事情,你才能有更大的蛋糕去吃,否则别人不理解,觉得超算就是在浪费钱。”

  再有,借助社会资源合办高校超算大赛,其中也加强与国内同行的合作,超算大赛就有无锡中心的积极支持;编写本科教材,让超算课程进入高校等。“超算想要发展起来,得做生态,要有软件,有人才,有人懂你,你也要投钱,不能光喊口号,没人支持不行。还有,无锡和济南都是神威系列,我们联合起来,而不是做对手。把神威推好了,对我们两个中心都有好处,我们的用户量都会增加,这是一个共赢的状态。”

  同时,作为神威蓝光的主要运营单位,济南中心自然肩负起了国产化的重任。说起IT国产化之路的艰难,用张云泉主任的话说,“做好它的全生态要耐得住寂寞”。

  2011年建成至今,五六年时间,神威蓝光服役年限到了,下一步将升级成运算速度达5P的新机,为2020年升级1000P做准备。

  据了解,济南中心联合其他资源共配套30亿资金已经着手申请于2020年在青岛部署一台1000P的神威超算。这也是济南中心第一次探索专门面向某个领域为国家实验室提供超算服务。预计新超算项目将重点围绕国家海洋实验室的八大领域,提供海洋领域超算服务,包括海洋大数据、海洋气象预报、海洋地质研究、海洋药物、海洋安全、海洋食品等多个国家级任务。作为国内首例地方强强联合国家实验室项目,不仅将济南中心从一个地方服务机构一举提升至国家级服务单位,而且对超算的良性发展也是一个新的探索。

  对于未来将将原型机放在济南,而将1000p的大型机部署在青岛为国家海洋实验室提供专门服务的作法,张云泉主任解释说,“济南中心主要服务于山东,为此会在青岛专门建分中心,也在那里组建一批专门贴身服务的运维队伍,两个中心之间会通过铺设高速网,以云计算平台实现一体化运营,形成资源的对接和互补。”

  不过,超算这几年发展飞速,遇到的问题也不少。为此,济南中心积极解决超算的人才短板问题,解决生态系统问题,“过去不注意这些问题,光在那儿自己玩,结果谁也不跟你玩了。所以想要做好超算,必须上下游都得照顾到,大家都有机会,才能转起来,才能良性发展。”

  无疑,未来超算的定位会更加明确,发展必定也会越来越清晰。“你和云计算厂商去抢一杯羹,只会死路一条。只能逼着自己去服务最高端的客户,去做别人做不了的事情,才有存在的价值。这是市场倒逼的结果。”张云泉主任表示,超算既要“顶天”,也要“立地”,要能为老百姓做点儿贴身的事情,让他们切身感受到超算能够带来实惠。所以,在战略上“一定要高举高打,避免全线开展,从高端市场往下走,会容易一些。”(完)

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:wangxuze 来源: 51cto.com
相关推荐

2011-07-15 10:26:58

绿色超算蓝色基因Q

2010-08-23 08:26:12

Android超算

2021-06-22 16:38:56

曙光

2013-06-19 10:28:19

巴塞罗那超算中心部署

2019-06-13 21:33:24

AI

2019-06-28 14:56:02

曙光

2015-07-16 15:15:55

超算Linux

2019-06-19 15:51:44

曙光

2020-08-13 17:06:01

戴尔

2017-06-30 19:57:32

zl

2010-09-29 09:45:49

Linux超算

2021-06-29 15:29:38

超算排名计算机

2011-11-23 10:58:50

华硕服务器云计算华硕私有云

2015-12-15 13:31:30

浪潮

2018-11-25 22:16:30

超算芯片计算机

2023-03-10 10:06:14

特斯拉芯片

2011-06-15 10:55:02

JanusDell

2010-06-28 09:19:27

国产迷你超算

2011-07-06 10:35:59

服务器HPC气象预测

51CTO技术栈公众号