《更多中国超级计算机登上全球500强榜单》,新华社虽然启用了这个标题来报道第52届全球超算TOP500榜单的发布,但最近这次榜单(11月12日发布),还是让人们见识到了美国超算的厉害之处:轻轻松松,夺走榜单前两名。

美国养殖户_中国养殖技术比美国差_中国养殖业与美国养殖业

部署在橡树岭国家实验室的“Summit”

有朋友要问了,让出冠亚军又如何?我们不还有三四名吗?更何况,我们有227台HPC上榜(还有台湾地区2台未计入该数字),占据几乎半壁江山;反观美国,只有109台入围,差得可不是一星半点儿。中国超算哪里比美国差了?

中国养殖技术比美国差_中国养殖业与美国养殖业_美国养殖户

全球超算榜单TOP10

先别急,我们捋一捋。

就榜单而言,美国至少有两点碾压我们:

第一,美国109套系统的算力总和(占榜单所有入围系统总计算力的38%)比中国227套系统的算力(占31%)还多,这说明美国上榜的HPC系统平均算力更高;

这背后是,美国大多数网络巨头并不愿意把自己的超算系统提名到榜单的中参评,所以227:109也并不能完全反映中美超算的实力。

第二,超算主处理芯片及加速芯片几乎全部为Intel(占95.2%)和NVIDIA (137台使用加速芯片中的122台)所垄断,中国仅有少数几台采用了国产芯片。

超越“神威·太湖之光”成为亚军的美国超算“山脊”,使用了包含总计8640个IBM Power9中央处理器(CPU)和17,280个NVIDIA Tesla V100张量核心图形处理单元(GPU),而其浮点运算速度则由每秒7.16亿亿次提升到9.46亿亿次;反观使用了超过4万片自主研发的“申威”芯片的“神威·太湖之光”,其浮点运算速度为每秒9.3亿亿次,两相对比,可见单个芯片性能之间的差距之大。

美国养殖户_中国养殖技术比美国差_中国养殖业与美国养殖业

Sierra部署在劳伦斯利弗莫尔国家实验室

当然,我们今天要比的是超算,单拿芯片出来说事儿,可能有点“犯规”。再者,你也可以说美国上榜的超算系统平均算力高也不能说明太多问题,毕竟美国更倾向于把用作科学计算的HPC报上榜单。

所以,中国超算比美国到底还差在哪里?

下面写到的故事,可能会改变你的看法,发现美国才是真正的超算强国。

常参加SC、ISC的业内人士可能会比较清楚,这种面向世界的超算盛会是一个开放的展示平台,中国的超算厂商亦喜在大会期间搭展徕客。不过,中国超算厂商一个很明显的特点就是,更重视硬件展示,与软件或应用相关的展示和报告甚少。

而美国人的展台则完全不同:几乎每个展台上都有大量作报告的人,报告内容包括学术研究、应用进展、超算系统新用途……十几分钟一个报告,应用跟随与软硬件产品展示结合在一起,非常有人气。

而且,美国不仅超算厂商有展台,美国能源部、国防部、NASA等都有自己的展台,都会有很多技术专家在展台上作报告,气氛很好。

事实上,这并不鲜见。在美国召开的与高性能计算机相关的学术研讨会,作学术报告的人来自能源部、NASA、高校院所等工业界、学术界,整个就是“混搭”;反观我们,参会虽然有产业界人士,但上台作学术报告的,百分之八九十都来自大学、科研院所。

再说一个小细节。

我们知道美国也已将E级计算机的研制纳入国家战略规划之中。在美国E级超算项目相关的报告中,他们对未来E级计算机的使用,精确到非常细致的程度。

举个例子,比如美国人在计划书中会写到用E级计算机来提高发动机的效率。在报告中,他们能将发动机内燃烧的各种化学反应、流体计算方程等都呈现在上,关于其在T级计算机能算到什么水平,P级、E级计算到什么程度……也就是说,一个关于超级计算机研制的申请报告中,不仅有计算机研制的框架、方案、意义,还有关乎未来应用的、非常细节的展现。

看到这里,你可能已经有答案了:美国超算之所以强大,不仅强大在计算机硬件、基础软件,还强在其应用是一脉相承的。换句话说,美国不仅硬件强、软件强,应用也是真的强,他们的超算设备,都是好钢用在刀刃上。

反观中国超算,真正实现商品化落地,不过20年余。

1997年,曾获国家科技进步一等奖的“曙光1000A”落户辽河油田。那是中国超算第一次独立进入市场、实现商品化。

后来的剧情大家都知道了,我国开始以政府和机构为主导力量添置超算“家底”。短短几年间,我们国家不仅在深圳、天津、济南、长沙、广州、无锡部署了六大国家级超级计算中心,不少地方政府也投建了省市级的超算中心。

可能这些超算中心建设的意义大于它们的实际价值,长久以来,坊间充斥着超算中心“指标不低,应用未满”的传闻。2013年~2015年稳坐世界最快超算头把交椅的“天河二号”,曾因年耗电亿元之巨、实用性和效率却难令人满意,一度成为众矢之的。

时至今日,就算我们的超算应用团队蝉联了“戈登·贝尔奖”(2016年、2017年连续两年基于在太湖之光上的应用),中国超算的应用问题仍然是令人头疼的难题。

就在前不久的“2018年全国高性能计算学术年会”(HPC 2018)上,仍有院士吐槽:“超算在应用层面的滞后是我们长期以来的一个痛点。”

美国养殖户_中国养殖业与美国养殖业_中国养殖技术比美国差

中国超算缺的不是速度,而是效率和应用

那么问题来了:中国超算为什么没用好?

个中原因,其实也正是我们与真正的超算强国美国之间的真实差距——

首先,如前文所述,美国超算能力是一股自底而上的完整技术生态,从最基础的计算单元(CPU和加速器),到基础软件、工业软件或商业软件,再到上层应用开发,是一个完善的生态闭环;而我们的超算,绝大多数设备的计算核心并非国产,基础软件对外依赖,工业和商业软件亦不例外,这造成了中国超算与美国的实质性差距。

其次,即便我们“在别人的基础上盖大楼”,也盖得不是那么好。这些年来超算系统突飞猛进,应用普及的步子却没有随之迈得那么大。目前,超算中心主要业务基本还是高校、科研院所,很少有企业、小型组织在用。

而无论从哪方面来看,用好超算对企业业务竞争力的提升都具有长远意义。现实却是,很多企业想用上超算,却不知该从何处下手。

用得太少,说明我们的超算在“好用”“易用”的问题上,解决得并不充分。

另一方面,超算系统的生命周期也有限。如何在它5~7年的“巅峰生涯”里发挥更大作用,服务国计民生更多方面?

显然,超算越易用、好用,各行各业拥抱超算的门槛才真的降低了。门槛低了,用得人才能多起来。

而超算厂商是距离超算应用最近的部门,在开展HPC设备部署的时候,无论专用还是通用,都要与用超算的人无论是科学家还是工程师充分沟通,一起解决让这些大家伙高效运转起来的问题。

所以,只有开出让超算更“易用”与“好用”的药方,才能切中肯綮,凡击必中。

比如,要着力构建“系统软件和中间件”接口或平台——这是应用生态中非常关键的内容——系统软件和中间件是连接超算底层和上层应用的关键环节,通常在超算上跑应用的技术人员,如果对计算机底层不太熟悉,会感到束手束脚,牵扯大量精力。

因此要解放这一部分生产力,让做应用的专注于应用软件的开发、应用环境的优化和应用效率的提升,让专业的人做专业的事情。

这其实并不容易做到,一支高水平的支撑队伍需要很强的交叉学科能力,才能把对超算的应用服务做到比超算的建设和维护还要出色。也就是说,只懂计算机是不够的,还要“混搭”与应用相关的知识背景。

其实,未来的超算应用,是一个无比广阔市场。但是,要让超算既能满足科学研究这样的阳春白雪,又能飞入万千寻常百姓家,必须打通超算硬件与应用之间的“死谷”环节。

我们常说的“死谷”研究,其实就是“应用基础研究”。笔者曾在探讨中国芯为何不进反退的话题时,谈到过这一话题(点击链接查看详情)。这一研究环节处在技术产业链条的中间环节,是最为薄弱的地带。

美国养殖户_中国养殖技术比美国差_中国养殖业与美国养殖业

“死谷”曲线

对应到超算应用困境来说,就是需要有人(也许是超算厂商、也许是需要超算厂商与业界专家联手)搭建起超算硬件设备与各类超算应用需求之间的桥梁,填平超算与应用之间的“死谷”。

中山大学数据科学与计算机学院院长钱德沛曾这样总结中国超算应用上的弱点:缺乏应用软件、缺乏人才、缺乏有效合作,说到底,要完善高性能计算的生态环境,瞄准可持续发展。而这需要业界各领域、各个层面的人齐心协力。

是时候吹响这个号角了。

中国超算,用起来吧,以好用之名。


本文由转载于互联网,如有侵权请联系删除!