Netflix、Tinder和其他主要网站周日一度受到亚马逊网络服务(Amazon Web Services)弗吉尼亚州北部设施故障的影响,这给其他依赖云服务获得关键任务能力的公司提供了一个教训。
这个问题主要表现为出错率高于正常水平。网站的影响据报道,还包括IMDb和亚马逊的即时视频和书籍网站。
据报道,混乱的核心是AWS的DynamoDB数据库问题,但它扩展到其他服务,如EC2、专注于移动的cognto服务和CloudWatch监控服务AWS服务运行状况仪表板.
“根本原因始于我们在DynamoDB中的部分元数据服务,”AWS在周日太平洋时间凌晨4:52发布的仪表盘更新中解释道。这是一个内部的子服务,用来管理表和分区信息。我们的恢复工作现在集中在恢复元数据操作上。我们将在努力恢复的同时抑制api。”
在PDT周日凌晨3点开始后,DynamoDB问题在上午8点15分被修复。所有其他服务在上午11点05分恢复。
Enderle Group首席分析师Rob Enderle表示:“这真的不应该发生。”“针对关键任务系统出售的服务应该有大量冗余,不同客户的实现应该是隔离的,这样就不会因为一个客户的失败而导致所有客户的崩溃。”
Enderle说,如果未来发生类似事件,AWS可能会开始失去客户。
他说,这是“对任何AWS客户的警示”。“最终,亚马逊没有足够的故障转移保护,这意味着它的客户需要确保他们有。”
事实上,Netflix因为自己的冗余方法而遭受的破坏很小。
该公司在电子邮件中表示:“我们能够迅速将受影响的AWS区域的流量重新定向到一个全面运行的区域。”
Enderle建议,其他在AWS上运行关键任务系统的亚马逊客户也可以效仿Netflix的做法。
Enderle表示,与此同时,IBM“在SoftLayer方面提供了更强大的产品”,而BMC等公司则整合了AWS并具有强大的故障转移能力。
RedMonk的联合创始人兼首席分析师Stephen O’grady说,当然,对于云计算提供商来说,几乎任何宕机都是非常重要的,因为客户非常重视正常运行时间。
他表示:“毫无疑问,如今AWS与客户的相处将‘很不愉快’。”
不过,奥格雷迪指出,“所有供应商都有中断的情况,到目前为止,它们似乎还没有对亚马逊等企业的发展轨迹产生任何持久的影响。”
Forrester首席分析师戴夫·巴托莱蒂(Dave Bartoletti)表示,的确,“修复很快就实施了,AWS拥有了它,恢复几乎是立即开始的。”“根据我的经验,AWS一年可以处理一两次这样的事情,不会吓到客户。”
他补充说,最重要的是,“这是一个警钟,提醒你要为失败而设计云应用。”
这个故事的早期版本在第五段错误地描述了受影响的服务恢复的时间。上午8点15分,DynamoDB问题得到了修复,其他服务在上午11点05分恢复。