5年前,克莱姆森大学(Clemson University)任命詹姆斯•波托姆(James Bottum)为首席信息官,授权他对学校的IT基础设施进行全面改革,并建立一个高性能的计算环境。学校的目标是:将学校打造成一所领先的研究型大学,并帮助吸引教师和学生。
“去年,克莱姆森总裁告诉我们,由于金融危机,我们最好的几年来自国家的公共部门资金很可能已经过去了,我们需要重新思考我们的商业模式,”博特姆说。“鼓励他们创业。”
幸运的是,波特姆的团队所做的许多改变都让克莱姆森适应了新常态。这所大学从外部来源获得的收入增长了180%,这有助于补充学校的IT预算,联邦拨款增长了250%,其中一部分有助于抵消IT成本。
”的主要目标是继续运行,支持一组健壮的克莱姆森大学的服务和基础设施,”Bottum说,“但在某种程度上,我们可以种植和利用我们所做的和创建一个强大的基础设施和服务,也有利于国家经济的发展。”
博托姆拥有独特的资质,有助于完成这一切。他在研究部门工作了20多年,包括在国家科学基金会(National Science Foundation)工作,然后在国家超级计算中心(National Center for Supercomputing)工作了15年应用程序在过去的10年里,他一直担任首席信息官(此前在普渡大学任职)。
Bottum的团队在克莱姆森有很多值得骄傲的成就,但他们也研究了前沿的东西,从巨大的高性能计算网格到新的东西OpenFlow工具和学校自己的橙色文件系统。这是一个丰富的环境。
早期的行为
当博托姆(图右)来到克莱姆森商学院时,该校有48个IT团队,每个团队都有自己的服务器和存储空间,其中许多都运行着自己的网络。
“我看到一个部门的IT人员在一个房间里,风扇在吹服务器,”他说。“所有的高性能计算都在一小段时间内完成雷竞技电脑网站在工程科学学院。它们有六到七个集群,但没有足够的能量同时为它们供电。这是一种真正的皮带和吊带式的操作,一种在壁橱里的集群模式。”
一些其他意外的意外:大学以当地电信公司的价格夸大的价格购买商品100Mbps互联网服务,学校的大型数据中心距离校园10英里,膨胀潜力为30,000平方英尺。雷竞技电脑网站前者意味着大学可以通过加入Internet2来进行大量的飞跃,后者将更容易汇总IT运营和现代化。
虽然改造的初始资金将来自学校本身,但新的高性能计算能力一路上吸引了新的资金,克莱姆森赢得了许多资助,包括美国国家科学基金会研究基础设施改善奖。
更多关于网络研究:关注我们的阿尔法狗博客
第一项工作是修复数据中心和信息技术中心,并聚集大部分雷竞技电脑网站IT团队和资源。该建筑已有20多年的使用历史,并分两阶段进行了升级。
“当我来到这里的时候,我们有7000或8000平方英尺的空间,半兆瓦,还有20多年前的电力和空调,”来自南加州大学(USC)的首席技术官吉姆·佩平说。“随着我们整合业务并开始建设我们的高性能计算集群,我们在不到两年的时间里就达到了2兆瓦。”
HPC集群前从左到右:运营总监Jay Harris;博伊德·威尔逊,计算机、系统和运营执行董事;Mike Cannon(前),数据存储架构师;首席技术官吉姆·佩平(后);Lanae Neild, HPC管理员;Becky Ligon,文件系统开发人员。(Zac Wilson拍摄)
第一阶段于2007年12月结束,第二阶段于2010年12月完成,数据中心面积为16000平方英尺,分为两个环境,雷竞技电脑网站一个用于企业设备——从电子邮件、学生系统到支持州医疗补助系统的主机——另一个用于HPC系统,有1629个节点Linux集群。Pepin说:“所以现在我们有两个物理上独立的房间,有不同的空调配置和4.5兆瓦。”
连接从大学服务的100Mbps连接到北卡罗来纳州夏洛特和亚特兰大的多个10G光纤波长,用于访问Internet2和连接合作伙伴和其他大学。Pepin说:“我们还在全州建立多个10G波长。”这些连接——以及对国家LambdaRail的访问——使克莱姆森连接到国家基础设施,允许其他国家机构通过克莱姆森访问Internet2,并提供对克莱姆森HPC集群和其他协作资源的全国访问。
学校现在还在国家高等教育网络(National Higher Education Network)上与Pepin的前雇主南加州大学(USC)有千兆连接,克莱姆森在那里有三个架子的灾难恢复备份设备。佩平说:“没有钱易手,但我在加州有机架空间,他们在这里有机架空间,这让他们的数据中心看起来像是我的延伸,反之亦然。”雷竞技电脑网站“这就是我们正在考虑构建的模型,网络是我们如何将这些东西连接在一起的基本构件。”
高性能计算的需求
该集群——该组织有时称之为云——是皇冠上的宝石之一。
“我们不是在制造通用的产品乔妮·米切尔云Pepin说。“不是什么香草味的、虚拟化的等等。所有的东西都在里面,但它更全面,比它的质地更丰富。我们正在建立一个真正的基础设施和服务的云,这样我们就可以与国家实验室和该州的其他人一起进行科学研究。”
这个庞大的1629节点集群是由戴尔、IBM、惠普和Sun设备(主要是四套Intel/AMD架构)组合而成的。每个节点是一个物理服务器,有两个插槽,包含四核处理器,意味着每个设备有8个核,总共有14304个服务器核。
节点通过88个Arista和10G以太网端口连接思科,以及Myricom提供的3008个低延迟10G Myrinet网络技术端口。4台16端口,4Gbps QLogic光纤交换机用于支持存储需求。
服务器不是虚拟化的,因为所支持的作业通常是数值密集型的和非常高性能的。“所以这更像是一个网格,而不是云,”Pepin说。“我们称它为云,因为这是一种共享资源的模式,但我们像你在一个国家实验室看到的网格一样运行它。”
总而言之,这个拥有最新节点的集群将以每秒超过100万亿的浮点指令为基准,在全球排名第90位世界上最快的超级计算机.
的开源Maui Cluster Scheduler用于分配集群资源——这些资源是由所需的内核分配的——但某些用户被保证在特定时间以共管方式访问特定的资源。
集群的使用是巨大的,但Bottum有一些担忧。“我担心的一件事是,如果我们花了这些钱,并建立了这些能力,没有人会来使用它,”博特姆说。
事实证明他根本不需要担心。“在像南卡罗来纳这样的州,没有公共机构使用互联网2,如果你建造这样的东西,你就会开始吸引注意力,”博特姆说。“我做过的一件事,你可以把它理解为市场营销,那就是在查尔斯顿举行的南卡罗来纳州IT总监会议上发言。他们想知道我们在做什么,所以我提出了构建南卡罗来纳州云的想法,一个共享服务的环境,并告诉他们是否有兴趣在门口注册。”
有六个人报名了。“然后,我们从各种来源获得了一些资金,包括私人和联邦,并试图在我们称之为网络研究所的名义下支持高性能计算。这让我们在引入研究人员和其他各方方面有了一个中立的立场,而不是在IT组织之外运行。我们把它从it中解放出来,但它给了我们一种思考的方式,而不是让那些有超过全职工作要做的人精疲力竭。我们现在有大约12所大学——甚至一所高中——有高性能计算的拨款。”
从那以后,克莱姆森在全州各地举办了高性能计算研讨会,许多研讨会吸引了70人甚至更多的人。“有这种被压抑的需求,”博托姆说。
如今,集群利用率在80%-85%之间运行,峰值通常在90%以上。“在集群世界中,这是不可思议的,”博特姆说。
克莱姆森NOC:用于监视和控制局域网和广域网,以及研究、教育和商业计算系统,包括集群。(Zac Wilson拍摄)
OrangeFS和OpenFlow
当然,该集群也是该大学正在进行的许多工作的核心,包括并行虚拟文件系统的开发和OpenFlow的工作,OpenFlow是全球网络创新环境(GENI)的最高级别的项目之一。
在为克莱姆森的集群尝试了几种流行的文件系统后,研究人员确定他们需要更高的性能和更高的可靠性,计算、系统和操作的执行董事Boyd Wilson说。其结果是:恢复了开放源码并行虚拟文件系统(PVFS)的开发工作,由原来的架构师、Clemson教员Walt Ligon负责。Ligon正在与一家名为Omnibond的克莱姆森公司合作,后者为该文件系统提供商业服务。
Wilson说,在克莱姆森集群中,OrangeFS用于虚拟化32个戴尔存储服务器,同时为集群节点提供单个名称空间。目录和文件元数据分布在32个存储节点的1.6TB固态驱动器上,总共有256TB的原始旋转磁盘存储。
Wilson说,与其他高性能文件系统(如Lustre)不同的是,Lustre只能有一个元数据服务器,OrangeFS的分布式元数据方法和统一的名称空间使文件系统能够很好地扩展,同时也简化了操作。
这些功能最终可能有益于企业计算环境。Wilson说:“有了跨越数百个存储节点的统一名称空间,您可以根据需要添加和删除节点,客户不会注意到他们的文件在移动,也不会需要指向一个新的存储位置。”“你的非结构化数据存储可能会增长、调整大小,变得冗余,你不会拥有所有这些不同的小数据仓。因此,它有潜力在未来几年内成为企业计算解决方案。”
Clemson的一位研究人员Sebastien Goasguen正在使用OrangeFS开发一个基于云的基础设施,该基础设施可以同时启动和使用数以万计的基于集群的虚拟机。Wilson说:“它利用了OrangeFS,使您能够在所有集群节点之间共享高性能的文件系统。”
Goasguen正在与KC (Kuang-Ching) Wang合作,使用OpenFlow在虚拟机和客户端机器之间建立软件定义的网络,“这代表了该大学在OpenFlow方面的工作的一个很好的汇聚点,”他说。
克莱姆森是斯坦福最初OpenFlow部署的七个合作者之一。一开始,OpenFlow只是通过添加一个开放的、集中的、软件定义的网络路由层来促进网络研究的工具,现在,它承诺“彻底改变我们对网络的看法,”Wilson说。“很多人开始意识到,他们希望对网络基础设施有更多基于软件的控制. ...你可以做一些非常棒的事情。”
例如,对于克莱姆森来说,将IP地址从主要数据中心转移到校园的一个较小的中心并不太痛苦,因为它们共享子网,但当你开始进行长距离和多个地点的转移时,就变得非常困难,威尔逊说。雷竞技电脑网站OpenFlow应该极大地简化这个任务,它允许在基础设施级别上创建和更改动态网络,也允许在应用程序级别上创建和更改动态网络,从而为改进网络的灵活性和灵活性提供了重要的机会安全.
虽然目前还不清楚克莱姆森何时以及是否能够从OpenFlow的工作中获利,但它已经从OrangeFS和其他通过Omnibond Systems授权的软件中获利,威尔逊说。例如,对OrangeFS感兴趣的公司可以从Omnibond购买一个支持10台服务器的包,价格为4.5万美元。
Omnibond许可的克莱姆森的其他工作包括身份管理工具(包括Novell的身份管理器的司机),甚至是交通视觉技术,州交通部门可以利用该技术将路边的视频信息转化为传感器。
威尔逊说,虽然许可证费用有助于抵消克莱姆森公司的IT成本,但这项工作也有助于吸引和留住真正优秀的人才。
企业IT
与HPC集群同样重要的是,如果它宕机了,“研究人员明白这就是生命的方式,”CTO Pepin说。“如果企业方面出现问题,我们就会被解雇。它只占电脑电力的一小部分,但却能减轻90%的痛苦,所以我们非常关注它。”