亚马逊Web服务缩放并不陌生。Gartner今年早些时候估计了IAAS容量的10倍作为其全部内部14个竞争对手的全部竞争对手 - 合并。但似乎AWS并没有完全准备好应对DynamoDB数据库的新功能所带来的影响,这导致了周日在美国东部地区的一次重大宕机。
+更多关于网络世界有个足球雷竞技app:来自亚马逊的云中断的3大外带+
首先是公司NoSQL数据库的一点背景:亚马逊在2012年推出DynamoDB,作为低延迟,高度可扩展的服务(看完我的这里有一个关于DynamoDB的深入故事)。与传统的SQL数据库相反,它意味着具有更快的吞吐量和更一致的性能。
去年年底AWS为DynamoDB命名的新功能添加了一个新功能全球二级指标(GSI)。当数据最初加载到DynamoDB时,有一个键和一个与该键相关联的值。GSI允许用户用不同的值和键重新组织数据;它是快速重组数据和运行新查询的方便工具。
当正常运行时,DynamoDB具有复杂的系统,该系统涉及跟踪各种客户表和分区的元数据,该分区位于正在不断检查的存储服务器中,以确保它们是最新的。
在周日清晨的时间内,有一个网络中断,防止存储服务器获得其元数据,以确保其最新。
Shutterstock.
这是GSIS进入的地方。GSIS大大增加了DynamoDB正在处理的元数据量,因为客户有多种不同的数据配置。存储服务器正在请求元数据,但网络错误降低了系统的能力服务该信息。瓶颈落入中断。DynamoDB系统的错误率升至55%。AWS试图通过添加存储容量来解决问题,但它不起作用。AWS基本上必须关闭数据请求以重置系统并添加容量。这样做允许的错误率恢复到0.15-0.25%。
作为回应,AWS表示它显着提高了其元数据和存储服务的能力。新的性能监控控制将安装(希望)暂时捕获这样的问题,如果甚至在他们发生之前也是如此。AWS正在探索如何在地理上分发服务以更多地分离更多问题。
AWS用户意味着什么
准备好 - 这是所有这一切的大外带。BMC SVP和首席建筑比尔普拉特表示,客户应该监视他们使用的任何云服务,以检测失败。在找到服务中断时,应在适当的情况下自动将工作负载转移到健康实例。“速度反应从未如此至关重要,”他说。
对不起
“我们为对受影响客户的影响而道歉,”AWS官员写道。“While we are proud of the last three years of availability on DynamoDB (it’s effectively been 100%), we know how critical this service is to customers, both because many use it for mission-critical operations and because AWS services also rely on it. For us, availability is the most important feature of DynamoDB, and we will do everything we can to learn from the event and to avoid a recurrence in the future.”
一件事
如果看起来像一只鸭子,就像鸭子一样散步,就像鸭子一样......然后是鸭子。
星期天的情况看起来像一个停电,影响了客户喜欢中断并带来许多武术服务,如中断...所以这是一个停电,对吗?不符合AWS。
也许这只是语义,但AWS不称之为中断,而是将其称为“服务事件”和“中断”。我们不能称之为它是什么:中断吗?