图500显示了世界上最强大的大数据机器

IBM的BlueGene/Q在数据处理超级计算机中占据了主导地位

的排行不再是唯一的排名游戏:为图500它跟踪超级计算机处理大数据类型工作负载的能力。

所以当一台新的Cray超级计算机在月球上取得了第一名排行在美国，另一台机器——劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的红杉(Sequoia)——被证明最擅长处理图500上的数据密集型工作。

在图片:地球上最强大的10台超级计算机

这两种标准在排名上的差异突出了世界上最强大的超级计算机使用方式的变化。越来越多的高性能计算(HPC)机器被用于数据分析，而不是传统的建模和仿真任务。

“我环顾(2012年超级计算大会的)展区，很难找到一个不做大数据或分析的展位。每个人都认识到数据是高性能计算的新工作负载，”David Bader说，他是佐治亚理工学院的计算科学教授，帮助监督Graph 500。

创建图500是为了显示世界上最大的计算机如何处理这种数据密集型工作。本周在盐湖城举行的SC12超级计算机会议上公布了最新的名单。

简单地说，图500基准测试着眼于“(一个系统)跟踪随机内存地址的速度有多快，”Bader说。对于数据密集型的工作负载，“机器中的瓶颈通常是内存带宽，而不是峰值浮点处理速率，”他补充道。

该公司的做法与Top500明显不同。著名的Top500榜单靠的是Linpack基准，创建于1974年。Linpack测量超级计算机执行浮点运算的效率，浮点运算用于数学密集型计算，如天气建模或其他三维模拟。

相比之下，图500更强调了计算机搜索大型数据集的能力。Bader说:“大数据有很多不规则和非结构化的数据集，对内存的访问是不规则的，对内存带宽和内存事务的依赖比对浮点性能的依赖大得多。”

对于Graph 500基准测试，给超级计算机一组称为图的大数据。图表是一组相互关联的数据，比如Facebook这样的社交网络上的一组连接的朋友。图由一组顶点和边组成，在社交媒体环境中，顶点是一个人，边是这个人与另一个人的连接。有些顶点有很多连接，而有些顶点的连接更少。给计算机一个顶点，计算它发现图中所有其他顶点的速度，也就是沿着边。

目前，IBM的BlueGene/Q系统占据主导地位这个版本图500。榜单上的前10大系统中有9个是BlueGene/Q模型——相比之下，2011年11月的榜单上只有4个BlueGene/Q模型。对于Bader来说，这证明IBM对当前的数据处理需求越来越敏感。IBM之前的BlueGene系统，BlueGene/L，更多地针对浮点运算，在列表中得分不高。

与Top500一样，图500的每一个连续版本都显示出参与者的性能稳步提高。在新榜单上名列榜首的“红杉”(Sequoia)，每秒的飞行次数达到了153630亿次。相比之下，顶级的进入者第一个列表在2010年编制的数据中，它的速度仅为每秒70亿次。这四个数量级的跳跃是“令人震惊的”，贝德说。

Graph500列表每年编译两次，与Top500一样，结果会在通常在11月举行的超级计算大会上公布，或者在通常在6月举行的国际超级计算大会上公布。参与是自愿的:参赛者将运行基准测试的参考实现或他们自己的实现，并提交结果。

尽管它的名字是“图表500”，但它还没有吸引到500个提交者，尽管每个版本的数字都在提高。第一次比赛有9名参赛者，而这次的比赛有124名参赛者。

巴德很快指出，图表500并不是Top500的替代品，而是一种互补的基准。不过，数据密集型基准测试可能有助于回答这个问题一些批评大约500强使用了Linpack基准测试。

帮助创建Linpack的杰克·唐加拉(Jack Dongarra)承认，他现在维护着Top500在一个讨论关于SC12世界500强的最新结果，Linpack并没有衡量计算机性能的所有方面。他指出了像Graph 500这样的项目Green500HPC挑战是衡量超级计算机性能的其他方面。

至少有一个系统，the国家超级计算应用中心的蓝色水域但它并没有进入500强，因为它的管理员认为Linpack不能充分展示这台机器的真正威力。

贝德指出，超级计算机是根据它们将要执行的任务而构建的，而不是根据任意的基准来构建的。

巴德说:“在一天结束的时候，你会想要一台最适合你工作的机器。”

约押·杰克逊报道企业软件和通用技术的突发新闻IDG新闻服务。在推特上关注约押@Joab_Jackson。约押的电子邮件地址是Joab_Jackson@idg.com

加入网络世界社区有个足球雷竞技app脸谱网和LinkedIn对最重要的话题发表评论。

工资调查:结果在