NASA的超级计算机团队:科学,而不是荣誉,才是最重要的

昴宿星HPC星团帮助美国宇航局完成科学任务

美国宇航局最大的超级计算机跌出了前10名,但它为美国宇航局的科学家们完成了工作。

美国宇航局的最大的超级计算机好像变小了一点。在2010年6月的超级计算机500强榜单中,美国宇航局的昴宿星团在全球最强大的高性能计算集群中排名第六,但在最近的一次排名中跌至第11位排名本周发布的。

但事实上,昴宿星是日益增长的并变得更加有用NASA的科学家他们需要世界上最大的超级计算机之一来计划太空任务、发现新行星和在地球上进行关键研究。

微软突破了千万亿次的障碍,把500强的位置让给了Linux

如果NASA为最近扩展的系统提交一个新的分数,它可能还能进入500强排名的前10名,但该机构的首要任务是科学,而不是排名荣誉(尽管NASA也有很多排名荣誉)。

Top500.org要求超级计算研究人员在Linpack基准测试,它衡量所达到的最大性能和理论峰值性能。虽然理论上的峰值可以用计算器来确定,但最大速度必须通过在超级计算机上运行Linpack软件来确定。

通过最近的升级,NASA已经把昴宿星团在理论上的峰值性能提升到超过每秒千万亿次,在实际性能上可能会达到超过800万亿次。这对于500强中的第8名或第9名来说很好,但每次NASA升级系统时运行Linpack会浪费本应用于科学问题的宝贵时间。

昴宿星团

“为了运行Linpack,我们必须休息一个周末,”NASA高端计算项目副项目经理威廉·希格彭(William Thigpen)在接受采访时说SC10超级计算大会在新奥尔良。“我们没有时间了。我们的利用率很高,我们的目标就是满足用户的需求。”

位于旧金山湾区NASA艾姆斯研究中心(Ames Research Center)的昴宿星基于Linux,在148个机架上使用英特尔的哈珀敦(Harpertown)、尼哈勒姆(Nehalem)和韦斯特米尔(Westmere)处理器84992年核。昴宿星也有希格彭所说的“最大的”InfiniBand并连接到一个名为“hyperwall”的独立集群,该集群使用AMD Opteron芯片和Nvidia图形处理单元。这让科学家可以根据他们试图解决的问题,在供应商喜欢称之为“异构”计算的情况下,访问广泛的芯片。

昴宿星团在2008年首次亮相,并在2009年和2010年升级了Nehalem和Westmere处理器。Thigpen预计将在12月或之后交付更多处理器,并可能在2011年6月之前提交一个新的Linpack运行,届时昴宿星可能达到每秒千万亿次的测量速度,或至少接近。

美国国家航空航天局(NASA)曾公开表示,它的目标是突破理论最佳性能到2012年达到每秒10千万亿次。然而,NASA也曾计划在2009年达到峰值理论性能的千万亿次,而仅仅在几个月前才实现了这个目标。

不管具体时间,希格彭说,真正的目标是给科学家提供进行研究所需的计算能力。“我讨厌人们不能做好自己的工作,或者不得不等待,”他说。

昴宿星团平均运行80%的计算能力,在繁忙时间可以达到90%左右。在任何给定的时间,系统上运行着300到400个作业,最大的作业通常需要25000到35000个核,最常见的作业需要1000到2000个核。

然而,最近的一次开普勒项目用于在宇宙中寻找行星的设计需要73000个核,这是昴宿星总处理能力的绝大部分。NASA看到越来越多的科学工作需要16000到32000个核,这是该机构不断提高处理能力的一个原因。

理论上,NASA可以让昴宿星团以100%的利用率运行,但要容纳所有不同规模的计算项目是困难的,同时还要为新的项目腾出空间。

NASA的科学需要使用超级计算机,包括发射模拟,计划火星任务气候模型、太阳变化及其对地球影响的研究、冰的形成、海洋活动、地震、降雨和许多其他研究领域的研究。

虽然在500强中排名靠前的一些超级计算机是专门为一个狭窄的应用范围而设计的,“NASA不能这样做,因为我们必须支持所有人,”希格本说。“我们必须有一台通用电脑。”

他说,创造一台能运行多种代码的通用超级计算机需要“操作系统、内存和芯片”之间的平衡。不同的应用程序需要不同数量的内存、处理核心和I/O速度。

“你总是会放弃一些东西,”希格本说。“没有人会有一份完全适合自己的工作。你要么不用所有的核心,要么不用所有的内存,要么不用所有的I/O带宽。你会被束缚在某个地方。你要做的是创造一个不针对特定功能进行优化的平衡系统。”

对于NASA的超级计算机来说,Linpack并不是一个具有代表性的度量标准,因为根据Thigpen的说法,“具有较差内存性能的系统不会被Linpack检测到。”Thigpen指出,英特尔的Harpertown和Nehalem处理器在Linpack中的表现相似,但就“实际工作”而言,Nehalem要快2.4倍。这是因为Nehalem芯片在执行频繁的内存操作时效率更高。

然而,Linpack在帮助Thigpen和他的团队识别昴宿星团中的问题方面是有用的。虽然Linpack不一定能预测真正科学计算的性能,但它可以确定“您应该在整个系统中获得哪种类型的性能,”Thigpen说。“它可以帮助你发现运行缓慢的处理器,或运行不正常的内存,或运行不正常的链接。对我们来说,这是很有帮助的诊断。我认为人们喜欢对事物进行排名,这是一种很容易运行的排名方式。”

说到效率,昴星团在绿色500中排名第54位,这是一个衡量每瓦特性能的指标,尽管希格本说“我们远远落后于蓝色基因和Roadrunner之类的东西”,这两种系统都是IBM的系统。同样,Green 500使用的是Linpack性能数据,所以Thigpen并不认为它是效率评级的全部和最终指标。

NASA已经发现并关闭了其超级计算基础设施中的低效系统。希格本说,美国宇航局最近关闭了哥伦比亚号的部分部件,退役了264个机架,这些机架使用了超过1500千瓦的电力。哥伦比亚号曾经是世界上速度第二快的超级计算机。现在,只需7个机架和112千瓦就可以完成同样数量的工作,每年可节省100万美元的电力。

包括昴宿星在内的整个建筑群每年的电力成本超过200万美元,但希格本说,他的团队正在“不断寻找减少这一数字的方法。”

在推特上关注Jon Brodkin:www.twitter.com/jbrodkin

了解更多关于这个主题的信息

美国宇航局:月球具有成为人类太空基地的化学物质

NASA为气候建模建立云服务

开普勒太空望远镜将成为一个“存储猪”

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对自己最关心的话题发表评论。

版权©2010Raybet2

工资调查:结果在