10个最严重的云中断(以及我们可以从中学到什么)

您的IT企业发送到云自带的风险，那些受这10个巨大的云停电可以证明

通过小拉斐尔

信息世界 |

您的IT企业发送到云自带的风险，那些受这10个巨大的云停电可以证明。

作为一个概念，云有很多优点。扔掉那些笨重的服务器，给自己一个白色的硬盘吧。其他人负责维护，并允许您将数据放在需要的地方。即使是“云”这个词本身也会让人联想到天堂般的幻想(虽然有点空洞)。

当然，现实情况好坏参半。你在避免维护中获得了什么，你就失去了控制。安全方面的担忧也是相当大的。但是，当您的云服务宕机时，没有什么地方比这更可怕了。

在InfoWorld编辑的21页中，你可以找到真正利用云计算所需要的严肃的解释和建议云计算深潜PDF专题报道。|和InfoWorld一起呆在云端云计算报告通讯。]

问问受影响的企业就知道了亚马逊网络服务备受瞩目的宕机事件4月。

尼克•弗朗西斯(Nick Francis)表示:“我们非常震惊。”他的初创公司Help Scout在亚马逊出现问题的前一周刚刚启动。“我们肯定没有准备好。”

弗朗西斯不是唯一一个措手不及的人。大名鼎鼎的属性比如Reddit和Foursquare亚马逊的云计算崩溃了。

Rackspace公司的首席战略官卢·莫尔曼(Lew Moorman)说:“云一直被宣传为一种神奇的东西，它能正常工作，而且完全可靠。云提供商看到了它的公平份额中断。“事实是，通过云购买是购买计算的另一种方式，而计算本身是有缺陷的。如果你想确保这些缺点不会伤害到你，你就得提前计划。”

为了确保您的业务无痛苦，在云中，我们提供在最糟糕的暴风雨云网络已经度过的10手中的这些来之不易的教训。

1 .亚马逊网络服务崩溃。将自己从网络维护工作中解放出来是在云计算中开展业务的一个主要卖点。缺点呢?当您的云供应商的常规配置更改使您的业务陷入停顿时，您只能无助地袖手旁观。

这是许多AWS客户经历了今年四月，当Amazon的北弗吉尼亚州的数据中心遭遇了毛刺和 - 使用技术术语 - 都几乎nutso。雷竞技电脑网站

这个错误开始于网络升级期间，当时一个错误的流量转移将一组Amazon EBS(弹性块存储)卷发送到一个镜像风暴中，因为他们在寻找可以插入自身备份的可用盒——我知道这是反常的。那引发了一系列事件最终拿下了许多公司的美国东部地区。

这是短版，反正 - 如果你有兴趣在全基本事实，在你的日程安排和读清除47小时亚马逊的手写稿的解释。

这些问题持续了大约四天。但在许多企业陷入困境之际，Netflix等其他公司却从容应对了这场风暴。生存的关键?在设计系统时要考虑到这些类型的故障。

“我们的架构避免使用EBS作为我们的主要数据存储服务，而且我们也依赖于没有受到停电SimpleDB的，S3和卡桑德拉服务，” Netflix公司的工程师在他们写道“Netflix从AWS宕机中吸取了教训”博客。跨可用性区域的无状态服务和多个冗余热备份数据是避免AWS云故障的关键。

想想你必须要Netflix的规模的企业保持安全？再想想。Twilio，一个公司，帮助开发者通信整合到他们的Web应用程序，使用亚马逊的EC2到主机基础设施的核心 - 但四月份的停运一点不得不对其稳定性没有影响。

“构建在云上的基本前提是假设网络会有小故障，”Twilio的联合创始人兼首席技术官埃文•库克(Evan Cooke)表示。“我们建立的基础架构是基于主机可能会失败的想法，所以我们不依赖于核心架构本身的任何一台机器或单个组件。”

巨大的云中断2号:伙伴关闭。智能手机可以很容易地在旅途中访问您的数据，但只是因为一些具有“智能”在它的名字并不意味着它不可能是哑巴。案例分析：在T-Mobile的Sidekick screwup，大约在2009年秋季。

还记得这个失败吗?微软(microsoft)旗下的Sidekick遭受了损失近一周的服务中断这使得用户无法访问电子邮件、日历信息和其他个人数据。接着，雪上加霜的是，微软承认它已经这么做了完全失去了云的存储的位而且无法恢复。显然，来自雷德蒙德的那帮老好人忘了备份。

从那时起，该技术可能已经进化，但教训是一样的：当涉及到关键的数据，永远不要假设别人会自动保护你。请确保你了解你的云服务提供商的灾难恢复设置 - 更好，使自己的安排，独立备份您的重要数据。

SmartBear公司AlertSite的监控产品副总裁Ken Godskind说:“同样的操作规则也适用于云计算。”“使用云的组织不能想当然地认为，因为它是在云中的，所以业务连续性规划的所有责任都以某种方式转移到了供应商身上。”

庞云停运3：Gmail的失败。在所有云服务中，谷歌的Gmail更有可能威胁到微软对企业的内部控制。更换你的高维护Exchange服务器通过Postini提供的廉价、可靠的电子邮件服务。有什么不喜欢的?

一个令人厌烦的停机最近的一次有15万Gmail用户登录他们的账户找到空白的石板- 没有电子邮件，没有文件夹，没有什么表示，他们实际上是在寻找自己的收件箱。谷歌的信用，它提供定期更新并承诺速战速决。但修理花了长达4天，一些受影响的用户。

“如果我们在多个数据中心拥有您的数据的多个副本，怎么会发生这种情况呢?”雷竞技电脑网站Google vice president of engineering Ben Treynor asked in一个博客当时公布。“在某些罕见的情况下，软件缺陷可能会影响数据的多个副本。这就是发生在这里。”

谷歌最后不得不这么做转向实际的物理磁带备份为了恢复数据。最终，该公司的多层数据保护没有工作，但也不是没有留下数千用户锁定他们的电子邮件的出了好几天。

是有原因的跑，挥动双臂，从任何东西云连接？可能不是。但它是一个理由来仔细看一下自己的数据安全保障，并考虑设立一个备份要么离线访问解决方案现在，在紧急需求出现之前。

AlertSite的Ken Godskind说:“当你观察广泛的平均值时，云计算将比个人拥有更多的运营成功。”“只是当你进入网络规模时，失败的影响会以一种更大的方式被放大。”

4号:Hotmail热得一团糟。当然，微软并不总是提供了最大的广告公司大力推动云计算，无论是。见证微软的Hotmail服务，经验丰富的数据库错误在2010年底，导致成千上万的空收件箱在新年之际。

这个错误,据微软，源于一个旨在删除为自动化测试而创建的虚拟账户的脚本。该脚本错误地将17000个真实账户作为目标。

花了微软三天大多数这些用户恢复服务。受影响的电子邮件发件人的一个不幸的8％，不得不等待前一个额外的3天他们的数据是回到了它属于。

即使是大眼夹无法通过微笑头疼这样。

庞云停运5号：忒双降。去年，Intuit遇到了一个困难时期，它的云连接服务，包括像TurboTax、Quicken和QuickBooks这样受欢迎的平台，在一个月内下线两次。最坏的情况是6月停电36小时。电力故障显然导致了事情的失控，公司的主系统和备用系统完全脱离了电网。

这只是雪上加霜，然后，当另一个明显的电源故障后来打忒周。在其他问题上，第二次停机似乎是引起淫秽载货喊异常高的速度。

一名用户当时在twitter上写道:“25个小时的停机时间让人难以忍受。”“来自Intuit的被动、不透明和僵硬的沟通没有帮助。”

哎哟。

“事实上，如果你需要绝对可用性，还有比单一云更好的解决方案，”惠普安全优势项目首席策略师克里斯•怀特纳(Chris Whitener)表示。“你不一定要复制所有东西，但即使多做一步——可能自己备份关键数据——也会带来很大的不同。”

庞云停运6：微软的BPOS哎呀。当你的基于云的生产力套件在虚拟世界里碰头的时候，你很难有生产力。这就是几周前依赖微软商业云服务的组织所经历的事情:这项服务被命名为——真正的微软风格——微软商业生产力在线标准套件，开始口吃5月10日左右。结果，付费客户的电子邮件被延迟了9个小时。

两天后，就在BPOS看起来安全的时候，延迟又回来了和发送出去的消息也开始卡在管道中。如果这还不够，微软经历了一个单独的该问题还阻止用户登录其基于web的Outlook门户。

“我想向你道歉，我们的客户和合作伙伴，为明显的不便引起的这些问题，” Microsoft Online Services的企业副总裁戴夫·汤普森在写给一个博客。

“我还想为每次你说我们服务的可笑名字时不得不说15个音节的明显不便道歉，”他可能应该补充说。

庞云停运7：Salesforce的slipup。宕机一小时可能听起来不多，但是当你的公司持有钥匙的企业数以万计的客户服务业务，以上几个这些组织必然要查看这60分钟就有一寿命。

Salesforce.com这里学到的东西，当硬盘的方式其数据中雷竞技电脑网站心关闭去年1月。刚进入新年的第四天，Salesforce.com就报告了一个全面的故障——这意味着服务、备份、所有的一切都失败了。

恼人的？绝对。奇怪？不是完全。

“事实是，基于云的数据中心——猜猜怎么着?雷竞技电脑网站——它们也会下降，”柯尼卡美乐塔(Konica Minolta)旗下All Covered部门的首席信息官蒂姆•克劳福德(Tim Crawford)表示。“一直都是这样，将来也永远是这样。我们必须面对现实。”

克劳福德说，成功的云计算需要一种不同的思维定式，比传统服务器设置：这是给你的，他建议，决定你企业的数据是否能忍受偶尔的停机时间 - 如果没有，以确保您的配置具有弹性的需要躲开它。

Crawford说:“当你选择云提供商时，你需要做功课来了解他们是如何提供这些服务的，以及他们是否能够构建与你自己所能做的一样好或更好的冗余度。”“如果答案是否定的，那你为什么还要用它们呢?”

8号:Terremark糟糕的一天。如今，Terremark可能成为头条新闻其数十亿美元的Verizon的交易但在2010年初，一次长时间的宕机主导了云服务提供商的覆盖范围。

Terremark公司的运气变坏的圣帕特里克节，2010年3月17日，该公司的vCloud快递服务一落千丈的那一天，有一个总部位于迈阿密的数据中心，为7个小时左右去下线。雷竞技电脑网站用户不能将存储在中心整个期间访问数据。

不是要获得过多的冗余，但是这带来了冗余的价值——让您的重要数据在不同数据中心的多个服务器上可用，或者更好的是，在不同的地区可用。雷竞技电脑网站您还可以采取额外的步骤，将其作为故障保险在不同的提供者之间传播。

IBM云安全战略项目的首席技术官Harold Moss建议:“你可以选择一系列的供应商来承载一个工作负载——一个作为备份，两个作为备份，然后另一个作为你的主要工作负载。”“然后你就可以用一种安全的方式、适当的安全措施来实现你的工作负载，并开始引入你的弹性能力。”

庞云停运9：贝宝倒下。希望与一些严重的广泛深远的影响云停运？尝试采取贝宝下线了几个小时。

这不是假设的练习:PayPal爱上了真实的在2009年的夏天，让数以百万计的世界各地客商的没有办法卖自己的东西。这项服务是约一个小时完全不可用，仍然参差不齐几声。PayPal表示硬件故障是罪魁祸首。

毫无疑问，这是一种罕见的中断——但是随着所有的销售损失，这种不幸的中断很容易在云计算的耻辱殿堂中赢得一席之地。

1 2 第1页下一个

第1页共2页

工资调查:结果在