那么发生了什么?事实证明,这仍然是另一次亚马逊网络服务(Amazon Web Services)故障。这次的中心是位于美国弗吉尼亚州北部的east - region1数据中心的Amazon Web服务(AWS)弹性负载均衡器(ELB)。其他云服务也关闭了,但让我们面对现实吧,在平安夜没有人注意到其他的云服务。不过,奇怪的是亚马逊即时视频继续发展.
确切地说,是弹性负载均衡器的应用程序编程接口(API)带来的问题。新的负载平衡器将会增加,但是它们不会正确地向整个ELB服务报告它们的状态。Netflix的用户很快就发现,这导致了“严重的流量损失”。
直到美国东部时间圣诞节中午前后,Netflix才得以报道“我们回到了正常的流媒体水平。"
我们仍然不知道为什么elb不正常,但我有一个有根据的猜测。Netflix无疑是最受欢迎的视频服务但ELB管理服务无法应对24日家庭对圣诞电影日益增长的需求,一件坏事很快就会接踵而至。
应该发生的是自动将流量重新路由到另一个可用分区(AZ)的elb.从这里,我不知道Netflix的elb是否没有正确地配置以做到这一点。在我看来,这似乎不太可能,因为即使在业务量较低的日子,Netflix也会给它的elb带来很大的负载。相反,更有可能的是,位于elb之上的管理服务并没有真正准确地了解新推出的elb正在发生什么。
这并不是Netflix第一次因为AWS崩溃而破产。当然不只是Netflix。AWS最近经常崩溃。去年10月,一个Amazon弹性块存储(EBS)崩溃导致Reddit和Imgur等网站瘫痪。我喜欢AWS,就像喜欢下一个寻找廉价云服务的人一样,但这种情况发生得太频繁了。
为了满足我们对电影近乎无尽的需求,Netflix已经建立了自己的内容分发网络(CDN).不过,Netflix还没有建立自己的云服务。在平安夜惨败之后,他们可能会考虑一下。
这并不便宜,但考虑到那晚Netflix的一些客户是多么愤怒,这可能是值得的。
相关故事: