建造百亿亿次超级计算机的国际竞争正在升温。能源部阿尔贡国家实验室的顶尖计算机科学家彼得·贝克曼解释了这项努力的重要性。
国际竞争建设一个exascale计算机据美国能源部阿尔贡国家实验室的顶尖计算机科学家彼得·贝克曼(Peter Beckman)说,这种趋势正在增强,尤其是在中国和欧洲。
百亿亿次系统将需要在软件、硬件和存储方面的新方法。这就是为什么欧洲和中国,特别是,正在召集科学家、研究实验室和政府资金来进行百亿亿次的研发。贝克曼说,他们将百亿亿次系统视为建立本土技术产业的机会,特别是在高性能计算领域。
exascale系统以exaflops计算;exaflop是每秒1万亿次浮点运算。它比现在使用的最快的petaflop系统强大1000倍。
能源部(DOE)预计将在2月10日向国会提交一份报告,详细说明美国实现百亿亿次计算的计划。政府最近收到了来自22家技术公司的回复,要求他们提供信息(RFI),关于在2019-2020年之前开发一个百亿亿次系统的目标,该系统使用的电力不超过20兆瓦。从能源使用的角度来看,IBM正在开发的一个20-petaflop系统,可能被认为是世界上最节能的系统之一,将使用7到8兆瓦。
贝克曼是美国能源部阿尔贡国家实验室百亿亿次计算机技术和计算研究所的主任,他向《计算机世界》讲述了百亿亿次计算机的最新发展。采访内容如下:
能源部希望在2019-2020年之前建立一个百亿亿千瓦的系统,并且这个系统的运行功率不超过20兆瓦。能源部从科技行业的回应中学到了什么?大约有22家公司回复。[能源部没有披露参与调查的公司名称。他们有各种类型的公司。有些是集成商;有些是芯片设计公司,软件公司。他们都说这是一个巨大的挑战,我们认为我们可以在这方面取得非凡的进展,但这将是非常困难的。我们设定了很高的目标,很困难的事情。但是如果你一开始就说100MW就可以了,那么你并没有真正突破极限。达到20MW是非常困难的,但我们希望看到新技术来实现这一点,所以他们普遍认为这很难。
他们有要求你调整20MW的要求吗?所有应对人员都表示,如果没有强有力的投资,这将是一个难以达到的目标。如果我们允许他们提供两倍的电力,40兆瓦或50兆瓦,那么就会简单得多。他们还说,系统软件和整个软件栈需要一个集成的方法。我要说的是,大多数人的回答对数据方面的挑战轻描淡写。人们知道数据是一个挑战,但他们真正关注的是,在回应中,计算。
什么是百亿亿次数据挑战?如果我们想象我们有一台百亿亿次浮点运算的机器,产生pb和pb的数据,从某种意义上来说,它变成了自己的计算问题。我们不能仅仅通过购买更多的磁盘来解决带宽存储问题。一个多层次的计划将不得不发展,包括NVRAM,甚至新技术,如相变存储器。但必须有一个包括分析在内的综合数据解决方案。它不能是,‘哦,我们只需要能够存储数据。他说,我们需要查找分析数据所需的架构。如果你看看谷歌和其他基于web的技术,他们已经想出了存储和分析数据的方法——在这种方法中,你有一个存储和分析非常接近的编程模型。
在计算中,我们还没有这样做。我们一直有这样的模型,数据在这里,计算在那里;你要数据,你得到一份拷贝,你把它放到电脑里,你对它做了很多工作,然后你把它放回去。所以当我们进入到百亿亿级时,计算变得越来越强大数据集也越来越大,来回移动这些数据在能量和性能上都太昂贵了,尤其是能量。它的运动需要消耗大量的电力。我们需要找到计算和分析的方法,更紧密地一起进行存储和分析。
今天外面有这样的东西吗?有些类型的数据有助于通过数据(卫星图像和其他东西)分散计算。对于某些类型的数据集,人们已经具备了这种能力。但我们确实需要对这个问题进行更广泛的思考。您要做的是找出方法来分割数据,并在集成架构中对数据进行分析。这在百亿亿次计算机中将变得更加重要我们还没有很好地解决。
2月份提交给国会的exascale报告怎么样?那是什么呢?国会要求能源部提交一份exascale的书面计划,该计划将不迟于2月10日提交。在过去的几年里,实验室,科学家,一直在推动这个百亿亿次的讨论,因为需要做科学,这些是巨大的挑战:力量,恢复力,如何编程这些东西。从某种意义上说,还没有发生的是,能源部的正式计划达到exascale…把我们带到那里的计划。
这份报告是获得资金的途径吗?如果没有一个明确的计划,国会是不会为百亿亿次计划提供资金的,所以真正的资金取决于通过这个计划和讨论,让人们相信这对国家的重要性。
国际上是如何发展百亿亿次计算的?一年半前,欧洲人聚集在一起,作为这个领域工作的一部分,他们说,我们需要制定一个欧洲计划。他们在去年制定了这个计划。去年10月,我参加了在巴塞罗那举行的会议,当时他们向欧盟委员会(European Commission)提交了该计划,他们说,‘这就是我们需要的百亿亿欧元——20亿至30亿欧元。除了向欧盟委员会(European Commission)提出这一建议(欧盟委员会对此表示赞成)之外,他们还启动了三个项目。这是前进道路上的一步,但它是大胆的,它已经开始了,人们已经在努力。如果他们成功了,就为投入更多的资金铺平了道路,让它进入下一个阶段,并最终建立一个系统。
为什么欧洲发展自己的体系如此重要?空客和波音就是一个很好的例子。IDC报告(下载)对欧洲人说:你们有这么多技术,但它却遍布整个欧洲。如果你能把它整合在一起,你就能像空中客车一样,很好地竞争。我不想过多强调这一点,但我认为很明显,欧洲人想要开发一个平台,可以在他们的超级计算机中心销售,然后再卖给我们。
中国人呢?中国正在全速前进。他们有一个机器这与我们的某些机器在性质上非常相似。这是一台水冷的机器,有16个核在一个插座上,在大约9个机架上进行每秒千万亿次运算。这是一个相当惊人的壮举,他们是为了赢得它。如果你看看他们在人才方面的投资,他们正在培养科学家,建立平台来继续创新,这样他们也可以拥有自己的本土产业;他们将拥有所有的技术,从芯片到软件栈,再到顶层。
胜利是什么样子的?现在,如果你看看中国,他们的很多机器仍然是用美国的部件制造的。但是,他们建造的这台机器,16核心有自己的互连,使用了中国技术。他们想做的,就像任何一个国家一样,是能够在他们的整个基础设施中获得发展这种技术的好处,这样他们的手机里的所有东西,一直到他们的超级计算机,都是在中国的工作。当然,一旦成功了,他们就会把它卖回巴西,南美,印度。他们能否将其卖回美国是个好问题,但其它市场是开放的。
英特尔表示,它能在2018年前交付百亿亿次系统,比美国政府要求的日期提前。你怎么看?我认为英特尔的技术是非常令人兴奋的,他们已经绘制了一个积极进取的路线图。他们在芯片和工艺上都有无与伦比的技术,如果他们想要追求这片新作品,我认为他们会做得很好。
英伟达认为2019年是可能的,但也表示需要政府的帮助。考虑到我们所看到的未来有多远,很难预测人们会在什么时候完成他们的产品。我们知道,除非我们给英伟达(Nvidia)和英特尔(Intel)提供政府资助,否则两家公司都不会解决某些问题。例如,对于科学计算来说,弹性是一个非常大的问题。如果你卖的是一台笔记本电脑,你不需要把它的防故障能力提高1000倍,但如果你把它放入百亿亿次系统,你就需要这样做。除非政府投资,否则不会开发。
第二个是权力。世界上大多数人都会去买几十个架子。对他们来说,价格的敏感性,不管是几百千瓦还是两倍,都不是什么大问题。但当你谈论一个像我们这样大的机器时,这是一个大问题。所以把投资放在电力上,让它非常低,在短期内可能没有市场驱动除了政府的百亿亿次。
Patrick Thibodeau为Computerworld提供云计算、企业应用、外包、政府IT政策、数据中心和IT人力资源方面的服务。雷竞技电脑网站在推特上关注Patrick@DCgov或订阅帕特里克的RSS提要。他的电子邮件地址是pthibodeau@computerworld.com。
阅读更多关于大型机和超级计算机的信息在计算机世界的大型机和超级计算机主题中心。
这个故事,“百亿亿次现在全球科技竞赛”最初是由《计算机世界》 。