它曾经很简单:将微处理器的时钟速率乘以四个,您可以测量电脑在Megaflops(每秒数百万浮点操作)或Gigaflops(数十亿拖鞋)中的计算机计算能力
没有更多的。今天他们谈论的是万亿次浮点运算和千万亿次浮点运算——这就引出了一个重要的问题:如何对这些更强大的系统进行基准测试?
“大多数现代处理器都是芯片上的系统,并且已经完全混淆了水,”AMD产品营销总监Gabe Gravning说。他解释说,X86微处理器实际上可以包括多个处理器内核,多个图形协处理器,视频编码器和解码器,音频协处理器和基于臂的安全协处理器。
“对于最长的时间我们建立了单核处理器并尽可能努力地推动频率,因为频率是与性能的相关性最清晰,”英特尔平台工程集团副总裁兼服务器开发集团总监“rory麦克内纳利。“然后来了双核,以及多个核心,突然18个核心,并且功耗变得更多的问题,基准必须赶上。”
但与此同时,基准是系统设计过程中不可或缺的一部分,McInerney解释道。他表示,当考虑使用新的芯片时,买家将“提供应用程序的片段,这些应用程序在他们的环境中具有最佳的模型性能——他们可能需要优化某个交易或算法。”
麦金纳尼说:“在此基础上,我们需要一种预测的方式来表明,如果我们采取选项a, B将提高X个百分点。”“为此,我们制定了30到50个合成或内部基准。这些基准测试倾向于在产品的生命周期中使用相同的CPU。然后我们看看内部的基准如何与我们可以引用的标准(第三方)基准相关联。”
Gravning补充说:“没有完美的基准,将衡量一切,所以我们依靠一套基准,”包括内部和第三方基准;这部分过程多年来并没有真正改变。
至于那些基准的性质,“内部的是专有的,我们不会让他们出去,”麦克尼恩笔记。“但是对于营销来说,我们还需要一个可以被第三方复制的人。如果你在外部基准上看起来很糟糕,世界上的所有内部内部都不会让你看起来很好。第三方基准对行业至关重要,对我们至关重要。“
作为桌面和消费者设备的第三方基准测试,来源定期提及PCMark和3DMark基准,既来自Futuremark Corp.在芬兰。第一个用于评估基于Windows的桌面系统,第二个用于测试游戏在Windows、Android、iOS和Windows RT设备上的性能。
但对于服务器和高性能机器,三个名称继续前进:TPC,SPEC和LINPACK。
TPC
成立于1988年交易处理及服务管理局(TPC)是IT供应商的非营利组织。它促进了模拟企业中系统的性能的基准,尤其是股票经纪(TPC-E基准)或大型仓库(TPC-C)。(最新的TPC基准测量大数据系统)。分数反映特定于该基准测试的结果,例如TPC-E基准测试中的“trade-result transactions per second”,而不是机器速度。
TPC的发言人Michael Majdalany解释说,TPC基准测试通常需要大量的硬件,需要人力来监控,设置成本昂贵,可能需要数周的时间来运行。此外,独立审计人员必须证明审计结果。因此,这些基准测试通常由系统制造商进行,他补充道。
TPC的总主席Wayne Smith补充说,在结果公布后,任何其他TPC成员都可以在60天内对结果提出质疑,技术咨询委员会将对此作出回应。他补充称,多数争议都与定价有关,因为基准测试通常是在系统及其价格公开之前在机器上运行的。2009年的TPC确实引起了一些媒体的关注谴责和罚款甲骨文100,000美元用于广告基准结果,竞争对手IBM抱怨的不是基于审计测试。
仍然在使用的最古老的TPC基准是用于仓库模拟的TPC- c,可以追溯到2000年。在350多个公布的结果中,得分从每分钟9,112个事务(2001年使用基于单核奔腾的服务器)到超过3,000万个事务(2010年使用具有1,728个核的Oracle SPARC T3服务器)不等。TPC文学他说,这种差异反映了“计算能力的巨大提升”。
TPC还维护了一个过时基准测试的列表,以供参考。史密斯回忆说,有些产品几乎在一夜之间就过时了。例如,他回忆说,在各种数据库语言开始采用名为“物化视图”的函数从经常使用的查询创建数据对象之后,TPC-D决策支持基准测试的查询时间从几小时缩短到了几秒。
Smith说TPC已经决定放弃需要实时审计人员的大规模基准测试,转向基于运行代码结果的“快速基准测试”,供应商可以简单地下载这些代码,特别是对于大数据和虚拟化应用程序。
“但就让每个人都同意而言,编写和批准基准的过程仍然很漫长,”Smith补充道。
规格
同样成立于1988年标准绩效评估公司(SPEC)是一个非营利的公司,它促进标准化的基准测试并发布结果,销售测试所需的任何源代码。目前,SPEC提供了cpu、图形系统、Java环境、邮件服务器、网络文件服务器、Web服务器、功耗、虚拟化环境和高性能计算的各个方面的性能基准。
它最古老的基准测试仍在使用中,并且可能是最着名的,是规范CPU2006,因为它的名字暗示,仪表CPU并于2006年发布。(“退休”版本的规格返回1992年。)
SPEM CPU2006实际上是一套应用程序在速度(单个任务完成)和吞吐量(完成多个任务所需的时间)上测试整数和浮点性能的应用程序套件。由此产生的分数是与参考机器相比测试机器的时间的比率。在这种情况下,参考是1997年的SUN Ultra Enterprise 2,具有296MHz UltraSparc II处理器。根据规范文献,它最初拿走了参考机12天来完成整个基准。
在撰写本文时,CPU2006的最高分数(在已发布的5000多个中)是31,400,这是在2014年3月测试的一台1,024核的富士通SPARC M10-4S机器上的整数吞吐量。换句话说,它的速度是参考机器的31,400倍。在另一个极端,2007年12月进行的测试中,联想(Lenovo)单核Thinkpad T43获得了11.4分。
规范交流总监Bob Cramblitt解释说,测试结果会提交给SPEC,并在发布前由该组织进行审查。“结果非常详细,所以我们可以看到是否有任何异常。偶尔结果会被拒绝,主要是因为没有正确填写表格。
SPEC的主管Steve Realmuto说:“任何人都可以提出一个基准。”“我们的产品是有信誉的,因为它们是由相互竞争的供应商组成的财团生产的,而且所有的利益都得到了代表。这是完全公开的,结果必须提交足够的细节,以重复,在发表之前,他们必须由我们审查。”
他指出,主要趋势是在测量的情况下实现更多多样性。SPED自2008年以来一直测量功耗与性能,最近产生了服务器效率评级工具,现在正在研究云服务的基准,他补充道。
“我们没有看到桌面的很多基准,”Realmuto补充道。“传统的桌面工作负载是单线程的,而我们专注于服务器空间。挑战是创建利用多个核心的基准,我们已成功。”
Linpack.
拖鞋仍然是由此测量的主要物质Linpack基准的基础排行自1993年以来,每六个月发布一次。该名单由三位计算机科学家管理:田纳西大学创新计算实验室主任杰克·唐加拉;劳伦斯·伯克利国家实验室未来技术小组负责人埃里希·斯特罗迈尔;以及劳伦斯伯克利国家实验室的副主任霍斯特·西蒙。
最新上市的顶级机器(2014年6月)是在中国广州国家超级电脑中心的天河2(Milkyway-2)。基于Intel Xeon集群的Linux机器使用了3,120,000个核心来实现33,862,700个Gigaflops(33,862.7 Teraflops,或近34个Petaflops)。
1993年6月,洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)的一台1024核的机器名列第一,它实现了每秒59.7万亿次浮点运算,因此,该名单反映了21年来接近6个数量级的改进。
Linpack最初是一个Fortran子程序库,用于解决各种线性方程组。基准测试起源于1979年Linpack用户指南的附录中,是估计执行时间的一种方法。现在可以用Fortran、C和Java下载它,它乘以密集线性方程组的解决方案(故意使用低效的方法来最大化所使用的操作数量),特别是矩阵乘法。
研究结果会被提交给唐加拉,然后他会在发布之前对这些说法进行审查。他解释说Linpack基准已经随着时间的推移而发展;这个列表现在依赖于一个高性能的并行处理器版本,叫做the高性能计算LINPACK基准测试(HPL)基准。
但Dongarra还指出,500强名单计划将超越HPL转移到基于的新基准共轭梯度,一种求解某些线性方程的迭代方法。进一步解释,他引用了一个桑迪亚报告(PDF)谈论今天的高性能计算机如何强调数据访问而不是计算。
因此,依赖旧的基准测试“实际上会导致设计上的改变,这与实际的应用组合是错误的,或者增加不必要的组件或系统的复杂性,”唐加拉说。新的基准将被称为HPCG,表示高性能共轭梯度。
他表示:“这将为Top500提供一个可供比较的替代基准,从而增加该榜单的规模。”他说:“我们不打算消除HPL。我们预计HPCG将需要几年的时间来成熟并成为一个广泛可见的度量标准。”
IBM的请求
与此同时,在IBM,研究人员正在提出一种新的方法来研究计算机整体结构。
苏黎世苏黎世认知计算集团的基金会主管和ACM戈登·贝尔奖奖金的奖杯负责人贝卡纳斯于2013年同意,同意Dongarra,今天的高性能电脑已经从Compute Compute Compry,以数据为中心。“这改变了一切,”他说。
“我们需要为他们将要解决的问题设计机器,但如果我们继续使用专注于一种应用的基准,那将会有陷阱,”他警告说。
Bekas说,因此他的团队提倡使用共轭梯度基准测试,因为共轭梯度涉及在大型矩阵中移动数据,而不是执行密集的计算。
除此之外,Bekas表示,他的团队还在推动一种新的计算设计,将不精确计算和精确计算结合起来——新的共轭梯度基准在这方面已经显示出巨大的优势。
他解释说,基本上,只需要双精度计算(即,拖鞋)只需要在一个微小的少数案件中。其余时间计算机执行粗略分类或简单的比较,并且精确计算是无关紧要的。
他说,IBM的原型机“显示出结果可以真正改变游戏规则”,因为通过精确计算和不精确计算的结合来达到解决方案所需要的能量减少了近300倍。他解释说,由于完全精度的最低使用,处理器需要更少的能量,整体解决方案达到更快,进一步减少能源消耗。
利用新架构将需要应用程序员需要采取行动。“但是只需要一个命令来做,”一旦系统软件模块知道新的计算方法,Bekas添加了
Smith说,如果Bekas的建议流行起来,通过基准推动机器设计和机器设计推动基准,它实际上将是古老的计算和基准模式的延续。
“我不能给你一个公式说‘这就是做基准的方法’,”史密斯说。“但它必须足够复杂,以展示整个机器,它必须在技术方面有趣,而且必须有可以用于营销的东西。”当几家公司使用它进行预测时,“当你基于基准构建新的硬件或软件时,它就会自食其力。”
“结果出版,它推动了竞争市场的档次,其他供应商必须回应,周期继续,”他解释道。
这个故事,“超越拖鞋:计算机基准的共同发展世界”最初发表《计算机世界》 。