峰会:如何IBM和橡树岭实验室正在改变超级计算机

该团队设计橡树岭国家实验室的新高峰的超级计算机 - 集成为这个星球上最快的 - 正确的预测数据为中心的计算的兴起,但它的建设者们无法预测的恶劣天气将如何破坏关键部件的交付。

峰会的超级计算机1
橡树岭国家实验室

该团队设计橡树岭国家实验室的新高峰的超级计算机正确预测数据为中心的计算的崛起 - 但它的建设者们无法预测的恶劣天气将如何破坏关键部件的交付。

然而,在IBM赢得建造它的合同近四年后,Summit如期建成并运行。Jack Wells是橡树岭领导计算中心(OLCF)的科学主任,他预计这台200千万亿次浮点运算的计算机将在明年年初全面投入使用。

“这是世界上最强大和最大的科学超级计算机,”他说。

Summit的设计任务是处理核物理、地震学和气候科学等工作,这些工作通常从一个模型和一组初始条件开始,然后在找到解决方案的过程中生成大量数据。

但它的创造者也为新类型的计算问题做了计划,这些计算问题从庞大的数据集开始,并寻求对它们的简洁解释。基因组学研究是一个例子,机器学习问题是另一个例子。

“我们认为有可能是一个很大的增长在我们的用户在程序数据密集型应用,...而且的确是发生了,”威尔斯说。

例如,他说,现在有10个左右的深度学习项目需要在峰会上投入时间,而几年前还没有。

Summit的架构 - 它的存储器的处理器和其在降低的精度来执行计算的更大体积的能力之间共享的方式 - 特别适合于这样的问题。(顶峰公司运行红帽Linux系统作为它的操作系统。)

这是一个在其他方面不寻常的超级计算机了。

如果业绩基准相匹配的预测,这将导致世界上最快的超级计算机Top500排行榜中以200个千万亿次,或每2亿十亿次浮点运算的峰值性能。

但是,另一项措施,峰会可以超过1.88 exaflops,或每秒1.88十亿十亿操作执行。取而代之的是64位,双精度,科学建模常用的浮点运算,这些计算是使用16位或半精度执行浮点运算,威尔斯说。这足以让许多深学习或基因组学所使用的计算。

Summit的计算节点比它注定要取代的Titan要少得多,Titan在2012年11月曾是世界上最快的计算机。泰坦的18,688个节点都由一个AMD Opteron CPU和一个Nvidia开普勒GPU支持组成,Summit的4,600个节点分别由两个IBM Power9 CPU和6个Nvidia Tesla V100 GPU组成。这些芯片可以高效地处理不同精度水平的计算。

峰会的超级计算机3 橡树岭国家实验室

IBM为美国能源部橡树岭国家实验室建造的巅峰超级计算机的每个节点都有2个IBM Power9 cpu和6个Nvidia Tesla V100 gpu。

其节点填充有存储器:512 GB的DDR4 RAM为Power9s,96 GB高带宽存储器(HBM2)为V100s的,和1.6 TB用作脉冲串缓冲器。此外,从程序员的角度,该内存的CPU和GPU之间共享,且可被视为一个单独的块,进一步超速操作。

这些节点分为三类:用于编译代码和提交作业的登录节点,用于运行批处理的启动节点,以及完成复杂计算工作的计算节点。但是,所有节点在物理上都是相同的,因此不需要为不同的目标交叉编译作业。

连接节点的是一个双轨EDR InfiniBand网络,节点注入带宽为23 GB/s。交换机以三层非阻塞脂肪树拓扑布局,这意味着无论其他节点在做什么,任何两个节点都应该能够以全带宽进行通信。

大约在同一时间,美国能源部委托IBM在橡树岭建造“顶峰”,它还要求IBM在劳伦斯利弗莫尔国家实验室建造另一台超级计算机“Sierra”。

它们有一个重要的不同之处:Lawrence Livermore在其数据中心使用传统的架空地板设计,橡树岭的水和电力等设施都在其头顶上。雷竞技电脑网站

IBM系统公司负责设计和工程的副总裁韦恩·豪厄尔(Wayne Howell)说:“我们必须重新调整系统和机柜本身的方向,以适应橡树岭。”

这也意味着所有的基础设施——机架、冷却、网络——都必须在第一个节点交付之前安装好。

豪厄尔说:“如果我们试图在建设基础设施的同时插上这些设备,协调就会一团糟。”

也就是说,虽然,这意味着该节点必须以稳定的速度在相对短的时间进行安装。

“面临的挑战之一,我们经历的是,一旦你得到这个火车与所有这些交付的滚动进来,你不希望打扰。”

中断等,也就是说,一个拖拉机拖车故障或恶劣天气。(节点是北美冬季成立,2017年第四季度和2018年的第一季度之间)

当一辆汽车发生故障,导致大量服务器滞留在IBM位于加州的工厂和位于田纳西州的实验室之间的某个地方时,该团队派了另一辆拖拉机回来取回它,而不是等待下一辆交付的车辆赶上它。豪威尔说,最终的结果是数千公里的旅程只耽误了几个小时。

当恶劣天气停止了卡车干脆,IBM包机来代替。

“当我们把他们送到美国各地的时候,我们让他们飞过去,而不是开车过去,以弥补时间。但是其中一些部件非常大,所以我们不得不包租大容量的飞机才能做到这一点。”

这些服务器带来了其他问题太:“想想都随他们的包装,我们很快就压倒橡树岭的能力来处理它,”他说。相反,采取的是到当地的废物处理设施,IBM在已经交付的服务器空卡车的一个又运不出来。

Wells表示,最后一批设备于2018年3月交付。

“我们一直在晃倒的系统软件,”威尔斯说。该计划是在今年夏天晚些时候完成验收测试,然后,他说,“我们将在2019年一月,在完整的用户操作”

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对那些顶级心态的话题发表评论。

版权©2018Raybet2

工资调查:结果在