当数据中心接近它的雷竞技电脑网站故障点时,太平洋西北国家实验室开始了一项不违反预算的设施改造项目。从失败的边缘考虑这些实际的教训。
2005年,太平洋西北国家实验室的数据中心出现了严雷竞技电脑网站重问题。
几乎每个月都会发生意外停机,导致数据中心每次停机数小时。雷竞技电脑网站ibm公司的数据中心服务经理Ralph Wescott说,各集团正在购买越来越多的机架式服务器,以增加计算资源雷竞技电脑网站政府实验室它由美国能源部管理。2005年7月,服务器室达到了容量极限。
“人们会去买一台服务器,然后把它扔到墙上,对我说,‘嘿,安装这个,’”威斯克说。“但我没有任何空间、电力或冷却能力。如果我再装一个的话,整个房间都会变黑的。”
有关数据中心战略的及时新闻雷竞技电脑网站和专家建议,请参见CIO.com雷竞技电脑网站数据中心钻取部分。]
Wescott和PNNL开始了一项大范围的项目,在不违反预算的前提下改造他们的数据中心。雷竞技电脑网站三年来,数据中心集团每个季度都会花一个周末的时间关闭服务器室,用更高效雷竞技电脑网站、更强大的服务器替换一排旧服务器和地板下纠结的网线,而天花板上的线缆更少。新的结构使地板下的冷却更加有效。
结果呢?PNNL从500个服务器上的500个应用程序迁移到150个服务器上运行的800个应用程序。
国际数据公司(IDC)技术、财务和执行策略项目主管约瑟夫•普恰雷利(Joseph Pucciarelli)说,在经济紧缩时期,应对这类信息技术项目需要严格控制资金。IDC是CIO.com的姐妹公司。
“这种情况非常普遍,”他说。“企业正在进行及时投资。他们有一个问题,他们正在以一种受约束的方式看待这个问题。”
以下是PNNL在将数据中心从崩溃边缘拉回来的过程中总结的一些经验。雷竞技电脑网站
1.计划,不反应Wescott需要解决的第一个问题是数据中心小组的习惯,即对出现的每个小问题作出反应,而不是看到系统雷竞技电脑网站问题并制定计划来创建可持续的服务。除了500台服务器外,数据中心还有3.3万根电缆将这些服务器与电力、网络雷竞技电脑网站和安全系统连接起来。
“我们决定了数据中心应该是什么样的,它的容雷竞技电脑网站量应该是多少,”他说。
该小组的结论是,按照目前的发展轨迹,10年内将产生3000个应用程序,每个都在自己的服务器上运行。现在,数据中心有8雷竞技电脑网站1%的应用程序已经虚拟化——平均每台服务器17个——而Wescott计划达到90%。
IDC的普恰雷利表示,企业应该专注于三个领域来提高产能。减少物理服务器和运行在虚拟系统上的应用程序的数量有助于降低电力需求,更高效的冷却系统和电力分配方面的改进也是如此。
他说:“当你更新数据中心的时候,通常会用到1-2-3步。”雷竞技电脑网站
Pucciarelli遇到过许多公司,它们用两个或三个更大容量的系统替换了多达50个服务器,并使用虚拟化来运行它们的应用程序。
2.测量管理雷竞技电脑网站PNNL的Wescott说,数据中心的管理人员需要监控数据中心状态的方法,但他们往往没有合适的工具。在这些变化之前,西北太平洋国家实验室没有办法衡量其数据中心的效率。雷竞技电脑网站当房间变暗的时候,或者通过一种更凭感觉的方法,就会发现电力问题。
他说:“如果有太多电流通过我们的电源,我发现的方法是把手放在断路器上,如果它是热的,然后我知道我们有一个问题。”“这证明你需要工具。”
现在,PNNL在每四个机柜的低、中、高三个位置都安装了传感器,以创建服务器室的三维热图。这些数据使威斯科特改变了他冷却数据中心的方式,提高了整体温度,并在需要的地方进行冷却。雷竞技电脑网站
他说:“我认为这将为我节省一大笔钱,并减少空调的损耗。”他补充说,目前的估计是,数据中心的制冷效率将提高40%。雷竞技电脑网站
3.采取小步骤从根本上重新配置数据中心而不中断操作是一个主要的问题,W雷竞技电脑网站escott说。他说,这位经理主张采取一些小的措施来减少中断,但把决定权留给了他的经理。
“我向管理层提出了两个选择,”威斯科特说。“我们花了整个校园七天的时间,从零开始;另一个是,我们每个季度都有一个周末的停机时间。”
通过采取小的步骤,小组准备一次一行地替换数据中心。雷竞技电脑网站在第一个为期三天的周末,30人的团队每天在数据中心花费14个小时,替换一排服务器机架并测试新配置。雷竞技电脑网站很快,数据中心变得更加可靠和稳定,雷竞技电脑网站威斯科特说。
他说,如果管理层不同意让数据中心宕机,提醒他们有计划的宕机比突然的、计划外的故障要雷竞技电脑网站好。
韦斯科特说:“你不能在船驶过海洋的时候画它的底部,但是如果你不画它,它就会下沉。”
4.为了长期的收益,接受短期的痛苦管理层也会毫不犹豫地多花点钱,为将来节省开支。
为了降低冷却系统的能源需求,威斯科特的团队评估了水边节约器,它利用水和外部温度来冷却服务器机架。虽然他们估计,从长远来看,使用环境冷却系统会节省他们的钱,但水边节约器把冷却装置的价格比预算高出10%。然而,威斯克特与卖主合作,将价格降至预算限度内。
“他们一次又一次地为自己买单,”他说。
5.找出你不知道的在数据中心的改造中,管理人雷竞技电脑网站员还需要寻找能源消耗很少或没有增加的地方。数据中心的一个常见缺陷是ghost雷竞技电脑网站和rogue服务器。
Ghost服务器是已部署但仍未使用的机器。它们仍在消耗能量,但对数据中心的核心工作没有帮助。雷竞技电脑网站流氓服务器是某人在其办公室(数据中心之外)中放置的机器,以避开数据中心人员可能实施的任何限制。雷竞技电脑网站
威斯科特说,这样的服务器会浪费大量的能源预算。
他说:“那些应该每天晚上关掉空调的大楼,其实是在运行空调,以保证那些流氓服务器正常工作。”
自从他开始对数据中心雷竞技电脑网站进行改造以来,由于天气酷热和冷却系统故障,数据中心只出现过一次计划外的停机,但威斯科特知道,他还没有完成工作,只是推迟了不可避免的故障。
他说:“我们已经计算了墙的长度。”“从现在开始的五年内,我会因为储物空间的问题而用完房间,而且我可能会用完那个房间的空间。”
关注Twitter @CIOonline上的CIO.com。
这篇文章,“从数据中心的能力危机中得到的五个教训”最初是由雷竞技电脑网站首席信息官 。