犹他州盐湖城——美国能源部(U.S. department of Energy)建造了世界上最大的超级计算机,目前的目标是2020年至2022年一个exascale系统这比之前的预期晚了2到4年。
新的时间表假设国会将在2014年财政预算中为该项目提供资金。白宫将于明年初向国会提交2014财年的预算请求,该财年将于明年10月1日开始。
尽管科学家们相信,百亿亿次系统可以帮助实现突破性的科学突破,提高美国的竞争力,加深对气候变化等问题的理解,但迄今为止,研发工作获得的资金有限——远不及可能需要的数十亿美元。
专家此前预计,百亿亿次系统将于2018年问世。这些预期部分是基于计算能力的可预测增长。
1997年,由英特尔公司制造并安装在桑迪亚国家实验室的ASCI红色超级计算机突破了万亿次浮点运算的门槛,也就是每秒运算1万亿次。ASCI Red的建造成本为5500万美元。
相比之下,英特尔刚刚发布φ60-core协同处理器它的运算能力也可以达到万亿次浮点运算,售价为2649美元。
在2008年,也就是ASCI Red首次亮相的十年后,IBM的Roadrunner开始在洛斯阿拉莫斯国家实验室运行。Roadrunner以每秒千万亿次浮点运算的速度运行,也就是每秒持续进行1000万亿次浮点运算。
下一次飞跃,exaflop是1000千万亿次。
美国能源部正在为国会起草一份报告,详细说明其“百亿亿次计算计划”(ECI)。该报告最初定于2月份发布,预计将阐明建立百亿亿次系统的计划和成本。
美国能源部科学办公室高级科学计算研究部主任威廉·哈罗德(William Harrod)上周在这里举行的SC12超级计算会议上预览了ECI报告。
“当我们开始这项计划时,时间表是2018年;现在已经是2020年了,但实际上是2022年。”哈罗德说道。
哈罗德说:“我毫不怀疑,有人会在2018-2020年推出exaflop系统,但我不认为这是一个可以解决现实世界应用的系统。”
中国,欧洲和日本都在进行百亿亿次计划,所以美国是否会提供首个百亿亿次系统还不能保证。
特别是中国,一直在大力投资大型高性能计算系统以及自己的微处理器和互联技术。
美国为其百亿亿次计划制定了一些严格的标准。
该系统需要具有较低的功耗,并且可以作为广泛应用的平台。政府还希望百亿亿美元的研究经费用于开发可销售的技术,以帮助IT行业。
美国向国会提交的计划将要求在2018年之前建造两到三个原型系统。一旦技术方法被证实,美国将订购一到三个百亿亿次系统,Harrod说。
百亿亿级系统开发提出了一套独特的能力、内存、并发性和弹性挑战。
弹性是指在组件出现故障的情况下,仍能保持拥有数百万个核心的大型系统持续运行的能力。哈罗德说:“我认为恢复能力将是一个巨大的挑战,如果电脑能连续工作几个小时,那就太好了。”
挑战的规模在power的目标中显而易见。
美国想要一个百亿亿次的系统,它需要的电力不超过20兆瓦。相比之下,目前运行的领先的千兆次系统使用的能量为8兆瓦或更多。
尽管处理器能力仍然是最重要的,但它并不是百亿亿级系统设计关注的中心。
IBM百亿亿次系统的副总裁Dave Turek说,百亿亿次系统的真正变化不是围绕微处理器,特别是在大数据时代。他说:“这确实是围绕着数据和最小化数据移动的理念,作为未来产品的主要设计理念。”
在今天的系统中,数据必须传输很长一段距离,这会消耗能量。哈罗德说:“生成的数据集是如此之大,把数据写到磁盘上再拿回来分析基本上是不现实的。”
“我们需要有大存储容量的系统,”哈罗德说。他说:“如果我们限制了内存容量,我们就限制了在需要运行时执行应用程序的能力。”
百亿亿次系统需要一种新的编程模型,但目前还没有。
高性能计算允许科学家建模、模拟和可视化过程。该系统可以运行无穷无尽的场景来测试假设,比如发现药物如何与细胞相互作用,或者太阳能电池如何工作。
更大的系统允许科学家们扩展解决问题的能力,或者更细致地观察问题,同时增加任何问题的物理量。
美国的研究努力将致力于充分利用exascale的潜力,并实现“10亿并发”。
为了给这一目标提供一些视角,阿贡国家实验室的研究人员开发了一个多万亿次浮点运算的宇宙模拟。实验室的物理学家Salman Habib说,在IBM的Sequoia系统上,模拟在超过150万个核上实现了13.94千万亿次浮点运算,在每个核4个线程的情况下,总并发数为630万次。
这个项目是迄今为止最大的宇宙模拟。
“尽管我们都很想这样做,但我们无法建立自己的宇宙来测试关于一个真实宇宙中正在发生什么的各种想法。由于无法进行真正的宇宙学实验,我们在计算机中运行虚拟实验,然后将结果与观测结果进行比较——从这个意义上说,大规模计算对宇宙学是绝对必要的。”
为了完成这项任务,研究人员必须运行成百上千个虚拟宇宙来调整他们的理解。Habib说:“要在高保真度上执行这样的模拟战役,需要百亿亿级的计算机能力。”“令人兴奋的是,到这种能力可用的时候,观测和模拟也将保持同步。”
一个百亿亿次系统的节点总数可能在10万个范围内,就像今天的小系统一样。现在,每个节点都变得更加并行和强大,Pete Beckman说,他是位于Argonne国家实验室的百亿亿次技术和计算研究所的主任。
例如,IBM Blue Gene/Q有16个核和64个线程。随着时间的推移,线程的数量将从数百个增加到1000个以上。
贝克曼说:“现在,当一个节点上有1000个独立的操作线程时,整个系统就会以10亿条路并发告终。”
贝克曼说:“真正的变化是在节点和并行编程中隐藏延迟,隐藏与其他节点的通信,因此需要大量的并行和并发性。”
贝克曼说,新系统将需要自适应编程模型。在解决方法之前,“在编程模型方面,这几年将会是混乱的。”
Harrod说,供应商将不得不改变他们构建软件的方法。
哈罗德说:“几乎所有的供应商都在他们的系统软件中内置了50年的传统。50年的努力,没有人关心能源效率、可靠性、最小化数据移动,但这些都不存在,因此我们需要改变这一点。”
哈罗德认为,这些问题是可以解决的,但美国必须投资于新技术。“我们必须推动供应商去他们并不真正感兴趣的地方,”他说。
哈罗德说,美国不能建造一个“特技机器”,或者一个用处有限的一次性系统。他说,百亿亿次的努力必须产生有市场的技术。
哈罗德说:“如果我能在500个机柜里做一个20MW百亿亿ascale系统,那就意味着我们在一个机柜里就能实现千万亿次浮点运算——这太不可思议了。”这样的结果意味着petascale系统可以小到足以放入学术部门或业务部门的数据库里。
哈罗德说:“在我们真正开始设计和开发这些计算机之前,我们必须做大量的研究。”“目前我们实际上不知道如何设计和开发这些计算机。”
为百亿亿次系统提供资金仍然是个问题。美国已经批准了大约7300万美元的资金用于初步的努力,但是还没有拨给exascale项目。
Harrod说:“我们预计ECI (exascale)的资金在2014年前不会启动。”
2014财年开始于2013年10月1日。但目前国会面临的财政问题,尤其是所谓的“财政悬崖”,使哈罗德对明年的融资感到悲观。他说:“说实话,在目前这个时候,我对此有些怀疑。”
哈罗德说:“最大的问题是预算。“在我有预算之前,我真的不知道自己在做什么,”他说。
Patrick Thibodeau为Computerworld提供SaaS和企业应用、外包、政府IT政策、数据中心和IT劳动力问题的服务。雷竞技电脑网站在推特上关注Patrick@DCgov,或订阅帕特里克的RSS提要。他的电子邮件地址是pthibodeau@computerworld.com。
阅读更多关于高性能计算的信息在计算机世界的高性能计算主题中心。
这篇文章,“由于预算困难,在2020年前不可能出现百亿亿次”最初是由《计算机世界》 。