谷歌提供了许多服务,它具有很强的可靠性。公司如何做到这一点?
大部分取决于谷歌工程副总裁,公司网站可靠性团队的创始人。他在谷歌开发了一种有趣的方法,以思考可靠性。
+更多在网络世界有个足球雷竞技app:10个提示确保您不会被Microsoft Cloud Slas烧毁+
人们可能会假设供应商的目标是谷歌应用及其其他服务100%的时间。确定可能是目标,但Treynor是现实的。每个Google产品都有一个服务级别协议(SLA),要求产品在给定的月份或年内的停机时间。例如,占用99.9%的正常运行时间,例如:每月停机43分钟,或每年约8小时40分钟。这8小时和40分钟是Treynor指的是“错误预算”。
谷歌产品经理不必完美 - 他们只是必须比他们的SLA保证更好。因此,谷歌的每个产品团队都有一个“预算”的错误。基本上,他们只是不能做出比SLA允许的更大的错误。
Treynor解释说,在传统的站点可靠性模型中,站点可靠性工程师(SRES)和产品经理之间存在根本的断开。产品经理希望继续向他们的产品添加服务,但SRE不喜欢更改,因为它打开了更潜在的问题。这种“错误预算”模型解决该问题,但是,通过统一SRES和产品团队的优先级。
有趣的事实:Treynor收集酷车
如果产品遵循SLA的正常运行时间,那么允许产品团队启动新功能。如果产品位于SLA之外,则允许在可靠性提高之前撤销新功能。
通过将产品开发人员置于建筑师可靠的系统,这是每个人的双赢。SRES可以获得可靠的系统,开发人员可以添加功能,用户不经历停机时间(希望)。具有错误预算系统 - 而不是强制要求100%的正常运行时间 - 为开发人员和工程师提供一些余地,而更密切地对齐开发人员和现场可靠性工作者的优先级。观看Treynor的视频解释过程这里。
它似乎有效。据跟踪公司Cloudharmony,谷歌的IAAS云计算平台去年有一些主要供应商的最佳正常运行时间统计数据。查看谷歌如何与亚马逊,微软和其他人相比的更多详细信息这里。当然,中断仍然会发生;Google Compute引擎(GCE)遭受了一个这个月, 实际上。