Amazon:计划升级期间执行错误导致停机

亚马逊道歉,解释了云停运,将扩大高可用性服务

升级过程中的错误执行导致了亚马逊的大范围云中断。

这花了大约一周的时间,但亚马逊已经完全恢复了最严重的停电在弹性计算的五年历史中他解释了出错的原因,并展示了预防未来问题的新路线图。

5700字解释与存储卷在东海岸的讨论开始雷竞技电脑网站“无法为读写操作提供服务。”

故障转移的限制:亚马逊EC2宕机导致“可用区域”出现问题

这导致虚拟机试图使用存储卷脱机。在处理这个问题时,Amazon不得不禁用各种api,这导致了很高的错误率和延迟。一小部分客户也遭受了永久性的伤害数据丢失

但是这一切都在午夜后开始4月21日当计划升级出了错。其中一个操作是“执行不正确。”

亚马逊表示,其目标是“升级主网络的容量”。“在更换期间,标准步骤之一是将流量从主EBS(弹性块存储)网络中的一个冗余路由器上转移,以允许进行升级。流量转移执行不正确,而不是将流量路由到另一个路由器主网络上,所述通信被路由到低容量冗余EBS网络“。

最终,这意味着存储集群的一部分“没有一个正常工作的主网络或辅助网络,因为流量被故意从主网络转移,而辅助网络无法处理它接收到的流量水平。”

虽然一些想知道亚马逊为什么没有道歉吗对于停运,亚马逊现在已经这样做了,他说:“最后,但并非最不重要的,我们要道歉,我们知道我们服务的关键是对我们客户的业务,我们将尽我们所能从这个事件的学习和用它来通过我们的服务推动进步。”亚马逊还承诺改善中断期间通信。

也许更重要的是,Amazon说它将自动为在受影响的可用性区域中运行弹性块存储或关系数据库服务实例的客户提供服务积分,“不管他们的资源是否受到影响”。It will be a 10-day credit "equal to 100% of their usage of EBS volumes, EC2 instances and RDS database instances," Amazon says.

这次宕机导致FourSquare和Reddit等热门网站下线,显示了亚马逊EC2客户可用的高可用性服务的局限性。Amazon将其数据中心划分为独立的雷竞技电脑网站区域和可用性区域。客户能够扩散应用并在多个可用区的数据,以防止停机,但区域不相距遥远和多个区域较上周下跌。

该地区 - 在东海岸和西海岸 - 提供更加孤立的,而是它是很难在最好同时使用他们在不停机的情况下保持应用程序运行。

亚马逊表示:“如果你想在地区之间移动数据,你需要通过你的应用程序来实现,因为我们不会代表用户在地区之间复制任何数据。”“你还需要使用一套独立的api来管理每个地区。”

尽管跨区域扩展应用程序可能会带来好处,但Amazon提出的修复方案主要针对可用性区域。

谁拿的多可用性区域优势,许多用户幸存下来的不停电“显著可用性的影响,”但是这并不适用于所有的情况。亚马逊表示,已经停运“告诉我们,我们必须作出进一步投资”,以确保在单一可用性区域是失败跨多个区域不会影响存储访问。

除了进行一些后端技术改进外,Amazon还表示,它打算让利用可用性区域冗余变得更容易。例如,虚拟私有云服务将被升级,允许客户“尽快”访问多个区域。Applications using VPC are more secure than those that do not, yet currently cannot be built across multiple availability zones.

亚马逊也将举办一系列的在云中设计容错应用免费网络研讨会,并表示将“外观,为客户提供更好的工具,”为建设跨越多个区域的应用。

Amazon的事后分析表明,中断本来是可以避免的,并表示“触发此事件的是网络配置更改”。我们将审计我们的变更过程,并提高自动化程度,以防止今后发生此类错误。”Amazon will also make further changes to prevent storage cluster problems. In last week's outage, simply adding additional capacity to clusters in advance could have allowed the systems to recover from the major problems more quickly.

但亚马逊似乎仍在关注plan中的许多因素。

“任何复杂的操作问题,因为,这是一个由几个根源彼此互动造成的,因此让我们来防止任何类似事件再次发生服务的机会很多,”亚马逊表示。

跟着Jon Brodkin推特:www.twitter.com/jbrodkin

了解关于这个主题的更多信息

亚马逊的公开道歉哪里去了?

云故障转移亚马逊竞争对手的挑战,也

亚马逊EC2宕机导致“可用区域”出现问题

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对那些顶级心态的话题发表评论。

版权©2011Raybet2

工资调查:结果在