谷歌如何避免停机

提示：它并不旨在保持Google云，应用程序

高级编辑，有个足球雷竞技app |

谷歌提供了许多服务，它具有很强的可靠性。公司如何做到这一点？

大部分取决于谷歌工程副总裁，公司网站可靠性团队的创始人。他在谷歌开发了一种有趣的方法，以思考可靠性。

+更多在网络世界有个足球雷竞技app：10个提示确保您不会被Microsoft Cloud Slas烧毁+

人们可能会假设供应商的目标是谷歌应用及其其他服务100％的时间。确定可能是目标，但Treynor是现实的。每个Google产品都有一个服务级别协议（SLA），要求产品在给定的月份或年内的停机时间。例如，占用99.9％的正常运行时间，例如：每月停机43分钟，或每年约8小时40分钟。这8小时和40分钟是Treynor指的是“错误预算”。

谷歌产品经理不必完美 - 他们只是必须比他们的SLA保证更好。因此，谷歌的每个产品团队都有一个“预算”的错误。基本上，他们只是不能做出比SLA允许的更大的错误。

Treynor解释说，在传统的站点可靠性模型中，站点可靠性工程师（SRES）和产品经理之间存在根本的断开。产品经理希望继续向他们的产品添加服务，但SRE不喜欢更改，因为它打开了更潜在的问题。这种“错误预算”模型解决该问题，但是，通过统一SRES和产品团队的优先级。

有趣的事实：Treynor收集酷车

如果产品遵循SLA的正常运行时间，那么允许产品团队启动新功能。如果产品位于SLA之外，则允许在可靠性提高之前撤销新功能。

通过将产品开发人员置于建筑师可靠的系统，这是每个人的双赢。SRES可以获得可靠的系统，开发人员可以添加功能，用户不经历停机时间（希望）。具有错误预算系统 - 而不是强制要求100％的正常运行时间 - 为开发人员和工程师提供一些余地，而更密切地对齐开发人员和现场可靠性工作者的优先级。观看Treynor的视频解释过程这里。

它似乎有效。据跟踪公司Cloudharmony，谷歌的IAAS云计算平台去年有一些主要供应商的最佳正常运行时间统计数据。查看谷歌如何与亚马逊，微软和其他人相比的更多详细信息这里。当然，中断仍然会发生;Google Compute引擎（GCE）遭受了一个这个月，实际上。

加入网络世界社区有个足球雷竞技appFacebook和linkedin.评论是最重要的主题。

Brandon Butler高级编辑通过专注于行业的主要参与者的进步，跟踪最终用户部署和在最热门的新初创公司上保持标签，涵盖网络世界的云计有个足球雷竞技app算行业。

SD-WAN采购商指南：要询问供应商（和您自己）的关键问题