sere17:现场可靠性工程的美好新世界

网站可靠性工程师运营着地球上一些最大的网站,并在他们工作的同时发明了一个新的专业领域

上周,我有幸参加了SREcon17美洲, USENIX为现场可靠性工程师组织的会议。什么是网站可靠性工程师(SRE)?本·特雷诺,谷歌的网站可靠性团队的创始人,一次解释这是“当一个软件工程师的任务是曾经被认为是所谓的业务会发生什么。”

这些工程师在DevOps实践中扮演着重要的角色,他们专注于高分布式系统(微服务像兔子一样成倍增长)中的可靠性(当然)和可伸缩性(达到惊人的水平)。他们运营着这个星球上一些最大的网站,并在此期间发明了一个新的专业领域。

发布会上的录音很快就会发布,因此而不是总结大量的演讲,让我分享一些在这个著名的聚会中观察到的文化和精神。

卓越的茱莉亚•埃文斯会议以一场名为“所以你想当巫师?“在其他会议的许多演讲似乎是为了说服听众说话者是一个非常严重的专家,所以这是令人惊讶的读取一个抽象的开头:

我并不总是觉得自己像个巫师。我不是团队中最有经验的成员。像大多数人一样,我有时发现我的工作很难,而且我还有很多东西要学。

然而,这种诚实传达工作的诱人现实。分布式系统本质上是复杂,其中包括无数的组件,其中可引起疑难问题,特别是在尺度的任何组合。就像一个优秀的侦探,专门SRE如下,他们带领的事实,沿途学习。谦卑,好奇心和勇气相结合,使作品显得一样引人注目作为CSI的一个很好的插曲。

行为训练,招聘

培训和招聘是本次会议的重要议题,因为目前对SRE技能的需求远远超过了供应。当被问及当一个新手SRE犯了第一个影响服务的重大错误时该说些什么时,一位小组成员建议说:“祝贺你,欢迎加入我们的俱乐部。”

许多实践者都是自学的,因为DevOps和站点可靠性工程都是新的领域。的畅销纲要网站可靠性工程出版于一年前。

“求职者”的徽章丝带可以在公司注册时使用,这样有需求的公司就可以找到人才。对于有网络背景的工程师来说,比较谷歌的搜索趋势是很有趣的DevOps vs . it。并不是说,网络专业知识是不重要的;反之。但撇开这方面专长的现场可靠性方面现在是一个重点。在机遇与兴奋整个SREcon是显而易见的。

可怕的规模无处不在。杰夫的理发师据Facebook的回忆,当时兆字节似乎很大。现在,10亿似乎成了一个司空见惯的数字。凯西罗森塔尔Netflix的创始人不经意间提到,他们的流媒体现在占到了互联网流量的三分之一。即使在这个惊人的负载下,他们也故意杀死生产系统的随机部分,以测试他们的设计对失败的弹性的假设。这个正在进行的混乱的猴子这种方式确保了Netflix的成功不影响由于最近Amazon S3宕机。

改善多样性

斯雷肯的多元化似乎比以往更好。例如,与其他科技行业的聚会相比,女性的代表比例明显更高(尽管仍不到一半)。为什么会出现这样的SRE相关性尚不清楚,但它是受欢迎的。

由于接受色调的例子,一组可在注册徽章缎带允许与会者以警示他人的代名词偏好(她/她,他/他,他们/它们,或者填空题)。和会议在向所有人开放领域时,得到了很好的参与,讨论有时很尴尬,但总是乐观和真诚的。

顺便说一句,苏珊·福勒是《爆炸》的作者博客条目关于优步的性骚扰,他是一名网站可靠性工程师。现在有了Stripe,她又写了一篇受欢迎的书生产就绪Microservices的字段。

向我的主人大声喊出这一天Netsil。该公司提供的工具,服务水平监控作为一个黑盒子,非常适合一个SRE可能无法仪器代码(尤其是外部服务)谁。了解更多关于这种方法他们的博客或者更好,下载他们的工具,并尝试他们。他们为从AWS到容器的几乎所有环境提供了版本,并且几乎每个尝试使用它的人都了解了关于他们的系统的一些新内容。(免责声明:我是公司的非正式顾问。他们明智地选择哪些建议可以采纳,哪些建议可以忽略。)

斯雷肯会议的录音和幻灯片将在未来几周内发布。探索项目网站要么关注Twitter上的更新。并观看SREcon事件新加坡(5)和都柏林(八月)。

加入网络世界社区吧有个足球雷竞技app脸谱网LinkedIn对那些顶级心态的话题发表评论。

版权©2017Raybet2

工资调查:结果在