循环计算在云中构建了10,000核的超级计算机,以提高科学研究。
高性能计算专家Jason Stowe最近提出了他的两个工程师一个简单的问题:你能在一个10,000核心的群集吗?云?
“这是一个非常好的圆形数字,”循环计算的首席执行官和创始人斯托斯说,供应商,帮助客户获得快速高效地访问这种类型的供应商超级计算电力通常为大学和大型研究组织保留。
超级计算机:微软打破了Petaflop障碍,丢失了Linux的500强点
循环计算已经在亚马逊的弹性计算云上建立了一些群集,可扩展到几千个核心。但Stowe想把它带到一个下一级。在亚马逊上提供10,000个核心可能已经做了很多次,但Stowe表示他不知道其他任何人在HPC集群中实现了该数字,这意味着使用批处理技术并运行HPC优化应用程序的其他人。
“我们没有找到对更大的任何东西的引用,”斯托说。已经过速度测试了,基于Linux的集群Stowe跑车在亚马逊上跑得很大,这足以制作世界上最快的超级计算机的500强列表。
第一个步骤中的一个正在寻找一个从这种大型集群中受益的客户。旋转这样一个大环境中没有任何意义,除非它致力于一些真正的工作。
选择10,000核云集群的客户是Biotech公司Genentech.在旧金山,科学家雅各布玉米需要计算能力,以检查蛋白质如何互相结合,在最终可能导致医疗治疗的研究中。与10,000核心集群相比,“我们是一个内部大小的十分之一,”玉米说。
循环计算和Genentech于3月1日在午夜后旋转集群,基于亚马逊关于要求10,000个核心的最佳时间的建议。虽然亚马逊提供了针对高性能计算,周期和Genentech优化的虚拟机实例,而是选择“标准的香草CentOS”Linux集群,根据Stowe。CentOS是基于Red Hat的Linux的Linux版本。
10,000个核心由1,250个实例组成,每个八个核心,以及8.75TB的RAM和2PB磁盘空间。一次缩放几千个核心,花了45分钟才能提供整个群集。没有问题。“当我们要求10,000核心时,我们得到它,”斯托说。
群集以8,500美元的费用运行八小时,包括亚马逊和循环计算的所有费用。(也可以看看:启动将未使用的桌面周期转换为快速服务器群集)
对于Genentech,与自己购买10,000个核心的替代方案相比,这很便宜和简便雷竞技电脑网站玉米说,让他们闲置不受他们的大部分生活的工作。他说,使用Genente的现有资源需要数周或几个月而不是亚马逊的八个小时。Genentech受益于大量核心,因为它的计算是“令人尴尬的平行”,没有节点之间的通信,因此性能统计“随着核心线性缩放,”玉米说。
群集使用千兆以太网互连,因为工作负载不需要更快的互连。
要配置群集,循环使用它自己Cyclecloud软件,这秃鹰安排系统和厨师,开源配置管理框架。
循环还使用了一些自己的软件来检测错误并在必要时重新启动节点,共享文件系统以及10,000顶部的一些额外节点来处理一些legwork。确保安全根据周期的,该群集设计有安全 - HTTP和128/256位高级加密标准加密。
循环计算吹嘘群集大致相当于世界上第114个最快的超级计算机上的第500个列表,它达到了大约66次TERAFLOPS。实际上,他们没有运行将群集提交到前500个列表所需的速度基准,但几乎所有的系统排名中列出的第114号排名含有少于10,000个核心。
Genentech仍在等待看到模拟是否导致现实世界中有用的东西,但玉米说数据“看起来很棒”。他说Genentech是“非常开放”,建立更多亚马逊集群,以及循环计算也在展望未来。
“我们已经在努力放大更大,”斯托说。所有周期需求都是客户拥有“用于利用它的用例”。
跟随Jon Brodkin推特:www.twitter.com/jbrodkin.