服务器上的Arm处理器已经从失败的开始(Calxeda)到一般的成功(ThunderX2),再到真正的竞争者(ThunderX3、Ampere)。现在,关于日本IT巨头富士通的Arm处理器的细节已经浮出水面,该公司声称,Arm处理器将以更低的功耗提供比Nvidia gpu更好的高性能计算性能。
富士通正在开发A64FX,一款专为高性能计算(HPC)设计的48核Arm8衍生产品。富士通没有设计通用的计算核心,而是增加了专门针对人工智能、机器学习和其他专门针对高性能计算需求的技术的计算引擎。
它将被安装在一台名为“Fugaku”的新型超级计算机中Post-K。Post-K指的是K型超级计算机,它曾是世界上运行速度最快的超级计算机,运行在定制的Sparc芯片上,直到安装它的理研实验室(RIKEN Lab)拔掉了插头。
富士通透露了一些新的细节,令人印象深刻。A64FX的设计与传统设计大相径庭。而不是芯片设计的AMD Epyc和一些Xeons,它是一个单一的整体设计。更重要的是,有4个高带宽内存2 (HBM2)芯片,这是一种昂贵但非常快的内存,只用于高端系统,连接到CPU。两个8GB的模块被放置在CPU的每一边。
在A64FX主板的原型揭示它没有内存DIMM插槽。Intel或AMD主板将呈现多达十几内存DIMM插槽,每个CPU,但A64FX主板有没有。这是因为A64FX对每个CPU芯片的32GB的内存HBM2。
在HPC,内存带宽一直是瓶颈,以及数据分析一样,模拟和机器学习密集型工作负载正在放缓下来。而更多的权力 - 高达100倍之多 - 是在HPC中移动的数据比实际处理它用。因此,要实现节能,数据需要移动尽可能少。
所以A64FX的设计完全不同于你的标准Arm或x86芯片。没有系统内存,每个处理器只有32GB的极快内存,通过高速互连直接连接到芯片上,而不是通过慢得多的内存总线。这将极大地减少CPU和内存之间的延迟,同时也会降低功耗,因为数据不需要从内存套接字中移进移出。
所述48个内核像它们由一个非常快的互连称为豆腐,这是首次在K超级计算机使用,并在A64FX已经前进连接的GPU的A64FX功能。豆腐是专为能源效率和低延迟。而被10倍以上的功率比的x86处理器高效A64FX能够峰值带宽3Tflops的。
甲Fugaku原型制成的头号点上Green500这是一份能效最高的超级计算机名单,由与Top500超级计算机相同的组织发布,这只是一个原型,不是最终的设计。
在早期的基准在美国,富士通(Fujitsu)宣称将击败英特尔(Intel)的顶级产品Xeon Platinum,并与英伟达(Nvidia)的Volta系列高性能计算处理器(HPC)展开竞争。然而,这并不是最终的硅,我总是等待第三方的基准测试。
那么,你为什么要关心这些呢?因为富士通与Cray达成协议,使用A64FX生产高性能计算服务器,并以Cray品牌销售。克雷以来被惠普企业收购因此,HPE将推出两款而不是一款基于arm的服务器,以及更主流的Project Moonshot服务器和A64FX。
从GPU计算到液体冷却再到模块化服务器设计,从高性能计算到缓慢主流化的技术有着悠久的历史。没有理由A64FX不能成为主流,并带来人工智能,ML,和其他高性能任务,而不仅仅是超级计算设施。
HBM2/no DIMMs是对系统内存的重大改进,我很想知道Intel和AMD是否会跟进。