一个用户(成功地)如何管理Amazon云重启

教训是:为失败做好准备

凯文·费利奇科(Kevin Felichko)周一晚上没有睡够他想睡的觉。

费利奇科是PropertyRoom.com的首席技术官,这是一个完全在亚马逊网络服务云平台上运行的被扣押物品在线拍卖网站。上周晚些时候AWS宣布将重启公司高达10%的虚拟机,称为弹性计算云(EC2)实例。对于PropertyRoom.com这样的公司来说,这可能是个大问题。PropertyRoom.com通过亚马逊的云计算处理价值数千万美元的在线拍卖。

propertyroom.com

但费利奇科表示,事实证明这是一个可控的问题。使用IaaS云计算资源的一个关键是做好失败的准备。亚马逊的首席技术官沃纳·沃格尔斯甚至鼓吹这一点。这就是费利奇科和他的四人技术团队在今年早些时候迁移到亚马逊云时所做的。

上周五,PropertyRoom.com收到亚马逊(Amazon)的通知,称该公司的大多数实例将在周一深夜重启。周一深夜,亚马逊通知费利奇科,重启将推迟到周二上午。费利奇科熬夜观察情况后,对维修窗口在最后一刻移到他身上感到有点沮丧。但是,在周二,重启发生了,PropertyRoom.com网站也没有宕机。

费利奇科说,不管整个过程有多么不方便,情况本来可能会更糟,但他很庆幸没有。他将此归功于听从了AWS和云计算专家的建议,让你的云应用程序在面对不确定性时变得灵活。

+更多关于网络世界有个足球雷竞技app为什么亚马逊要重新启动10%的EC2实例|Rackspace太+

使用服务命名CloudWatch(显示器EC2实例的健康)Felichko设置系统,如果任何实例服务网站的前端向下然后CloudFormation(这是一个工具,设置和部署AWS服务)将自动规模前端web服务器到另一个健康的实例。这些服务可以跨多个AWS可用区(AZ)进行扩展,这些可用区是AWS云的单个区域内的不同数据中心。雷竞技电脑网站

因此,当Felichko了解到重新启动时,他相当有信心系统能够自行将工作负载从任何已关闭的实例迁移到正在运行的实例上。它基本上是按计划进行的。

Felichko遇到的一个问题是,一个服务于管理库存的后端功能的实例陷入了重新启动周期,不能完全重新启动。这在系统中产生了某种多米诺骨牌效应,因为该公司的订单处理系统与库存紧密相连。费利奇科联系了一名AWS客户服务代表,后者解决了这个问题。这是AWS数据中心的硬件问题,该实例被离线。雷竞技电脑网站

Kevin Felichko, PropertyRoom.com的首席技术官

他说:“我们建立的系统可以在一个地区的多个az运行,所以我们有希望在某些情况下存活下来。”“我们的想法是,基础设施可能会出现故障,所以现在是测试它的好时机。”

Felichko加入PropertyRoom.com时,这家公司是由一家托管服务提供商托管的,但他在该公司的首要任务之一是将Savvis服务转移到AWS的云服务上。他对AWS提供的各种服务以及从Netflix到AirBNB的客户案例研究印象深刻。

自从今年早些时候迁移以来,费利奇科就没有回头,即使最近重启的情况出现了一点小问题。在旧的设置中,要在多个数据中心之间构建网站是非常复杂的。雷竞技电脑网站该公司甚至运行了一些数据的内部备份来进行缓存。现在,所有这些都转移到了AWS的云上,在多个az之间传播很容易,只需配置一些AWS的服务。“与使用专用的托管环境相比,这种体验还算不错,”他谈到使用云计算时说。在专用托管环境中,一旦出现硬件问题,PropertyRooms就会宕机6个小时。自从切换到亚马逊之后,它没有经历过任何明显的停机时间。

总的来说,过去的半个星期有点紧张,但费利奇科理解AWS为什么要这么做。关于大规模重启的实际原因,Amazon没有公布多少细节,但它与很多人怀疑是Xen管理程序中的安全问题有关。不太可能所有的客户都像费利奇科一样顺利。但大多数在Twitter上发泄不满的用户都抱怨这只是一个小小的不便,而不是灾难性的宕机。费利奇科可能在周一的时候因为等待维护而失去了几个小时的睡眠,但在总体规划中,他会权衡云带来的所有其他优势。

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对自己最关心的话题发表评论。

版权所有©2014 IDG ComRaybet2munications, Inc.

SD-WAN买家指南:向供应商(和您自己)提出的关键问题