飓风袭击岛屿的灾难恢复经验

准备灾难恢复需要计划,测试和思考非技术必需品,如康复团队的食物和庇护所。

一台笔记本电脑坐在暴风雨的海面。[灾难恢复/危机管理]
Fergregory / Getty Images

(飓风摧毁了一个岛屿,举办了两个数据中心,控制了一个美国生物技术公司的关键任务系统。他们在企业喷雷竞技电脑网站气式飞机上举办了四十年的岛屿的备份专家,以拯救这一天。这是故事challenges he faced and how he overcame them. He spoke on the condition of anonymity, so we call him Ron, the island Atlantis, his employer Initech, and we don’t name the vendors and service providers involved.)

Initech在atlantis雷竞技电脑网站上有两个数据中心,其中包含在大约200个虚拟和物理机器上运行的400TB数据。备份系统基于领先的传统备份软件供应商,并备份到目标重复数据删除磁盘系统。每个数据中雷竞技电脑网站心都备份到自己的本地重复数据删除系统,然后将其备份复制到其他数据中心中的磁盘系统。这意味着每个数据中心都有整个Initech在亚特兰蒂斯的备份副本,因此即使一个数据中心被销毁,公司仍将拥有其所有数据。雷竞技电脑网站

Initech还偶尔将这些备份复制到磁带上并将其存储在亚特兰蒂斯上以进行空气隙目的。他们本可以储存在大陆,但幸运的是,录音在灾难中没有被摧毁,而是可能是。Initech已经考虑使用云进行灾难恢复,但由于亚特兰蒂斯的带宽限制,发现它不切实际。

当飓风袭来时,Initech开始寻找某人在地面上恢复过程。由于破坏程度,他们知道他们需要一个可以处理命令级恢复的人。只有少数人在Initech的技能水平,其中一个是罗恩。他们把他放在私人飞机上,然后飞他去亚特兰蒂斯。

在那里,他发现了一个令人难以置信的一般毁灭水平,并且特定于发动机,一个数据中心被淹没,在每个机架中取出了服务器的底部行,将服务器留在上部机架中。雷竞技电脑网站恢复计划是将仍在致电干数据中心的服务器移动并在那里恢复所有内容。雷竞技电脑网站

虽然把服务器从一个地方转移到另一个地方的总体计划成功了,但罗恩说匆忙确实导致了一些服务器被不恰当地处理。这意味着在移动的另一端要重新组装它们就更难了。(提醒自己:在移动服务器时要善待它们。)

罗恩必须克服的最大障碍是亚特兰蒂斯和大陆之间的网络连接被暂时禁用由于飓风,它创建了一个主要problemInitech了不幸的决定依赖于大陆的活动目录,而不是一个单独的活动目录设置在亚特兰蒂斯。这意味着任何广告查询都必须直接访问大陆,而大陆现在是无法访问的。这意味着他们无法登录到启动恢复所需的系统。

他们尝试了多种选择,从基于卫星的互联网开始。虽然这给了他们一些连接,但他们发现自己在最大限度地利用每天的带宽分配,之后卫星ISP会减少他们的连接。他们还尝试用微波连接到另一个ISP。这是一个多步微波中继,所以在中继的任何建筑物的电力损失可能导致另一个临时中断。事实证明,当网络连接所依赖的基础设施——建筑和电力——不稳定时,要有一个稳定的网络连接真的很难。

实际恢复结果是容易的。任何标准肯定都不快,但它确实有效。将一个数据中心恢复到另一个数据中心的整个过程需要两周超过两周。雷竞技电脑网站考虑到亚特兰蒂斯的状态,这实际上非常令人印象深刻。

他们使用的备份软件正在使用管理程序级别备份VMware,因此恢复200加VM比较简单。恢复需要裸金属恢复的一些物理服务器,结果更具挑战性。如果你从未在不同的硬件上进行了裸露的恢复,则足以说它可能具有挑战性。Windows非常宽容,但有时事情只是不起作用,而且您需要手动执行许多额外的步骤。这种回收是恢复的最难部分。

灾难的课程

从灾难中得到的第一个教训是最深刻的:备份和恢复系统虽然重要,但它们可能不是灾难恢复中最困难的挑战。要找到一个恢复的地方和一个使用的网络可能会困难得多。请注意,这不是在备份设计上懈怠的理由。如果有什么不同的话,那就是有理由确保至少备份工作,而其他工作都不能工作。

不依赖于Active Directory的本地帐户将是一个好的开始。启动恢复所必需的服务,如Active Directory,应该至少有一个本地缓存的服务副本,该服务可以在没有Internet连接的情况下工作。这种服务的一个完全独立的实例将具有更强的弹性。

尽可能地排练大规模的恢复,并确保您知道如何在没有GUI的情况下执行它们。能够通过SSH登录服务器并在命令行上运行恢复是更高效且灵活的。作为似乎很多人的外国,命令行恢复通常是前进的唯一方法。在亚特兰蒂斯,电力服务处于溢价,因此将其使用给电力监视器并不是一个选择。

额外的硬件会非常有用。灾难恢复中的一个问题是,一旦您恢复了系统,就需要对它们进行备份。但是在这样的恢复中,并不一定有很多额外的硬件可以用于备份。您拥有的硬件正在非常努力地恢复其他系统,因此您不希望让它承担备份刚刚恢复的系统的任务。在这里,云可能会有所帮助,但在这种情况下,这不是一个选择。

当您的主要备份系统忙于进行恢复时,您需要计划如何在灾难恢复期间和之后备份服务器。Initech通过磁带库解决了这个问题。在灾难发生之前,itech用磁带把备份文件拷贝到一个安全的地方。主磁盘系统被充分使用来执行恢复,所以他们需要一些东西来执行新恢复的服务器的日常备份。他们禁用了脱机磁带复制过程,并暂时将生产备份定向到以前仅用于创建脱机副本的磁带库。关于磁带的一个伟大的事情是它实际上有无限的容量,只要你有足够的额外的磁带。另外,多放一些磁带比多放一些磁盘要便宜得多。考虑到itech数据中心的容量,如果有足够的磁带来处理几周的备份雷竞技电脑网站,成本将低于1000美元。但是,教训是,在进行主要恢复时,您需要计划如何进行备份。

自动备份包含是去的方式。所有现代备份软件包都有能力备份所有VM和这些VM上的所有驱动器,但并非每个人都使用此功能。Initech - 就像很多公司一样 - 试图通过备份中的某些文件系统在其备份中保存一些钱。这意味着它们错过了许多重要的文件系统,因为它们没有手动选择。课程:使用备份软件自动备份所有内容的能力。如果您知道有些东西是完整的垃圾,可以手动排除它。但是手动排除比Initech选择了一些系统的手动包含设计更安全。

你需要弄清楚你的康复人员要睡觉的地方!在一项重大灾难中,没有酒店房间,因此计划提前计划,并确保您的房屋,沐浴,并喂养您将在该建筑物中养活一段时间的人。罗恩被告知要带他睡袋,但应该有全新的睡袋,充气床垫和洗漱用品。此外,调查紧急食品口粮。Initech能够喂罗恩和他的同事,但它肯定并不容易。购买和维护这些用品是支付恢复机组人员休息和喂养的小价。

DR测试只会测试一段灾难是完全不充分的,以模拟真正的灾难就是这样的。它很难测试完全灾难恢复,但是Initech实际上已经完成了这样的测试,它本可以确定关于实际恢复的一些不准确的假设。您测试的越多,您就越了解。

最后,测试性能不是实际性能的预测因素。即使您执行完整的DR测试,即使是完整的DR测试,也将是不同的。如果您正在处理泛滥的自然灾害,这尤其如此,将其放火,甚至将其吹到Smithereens。雷竞技电脑网站您可以尽力尝试考虑所有这些方案,但最终您还需要的是人们可以对地面上意外作出反应的人。在这种情况下,Initech发出了一位经验丰富的退伍军人,他们原来是局面的合适人选。他和另一个人用拳打滚动并找到了一种恢复的方法。即使他的所有现代IT系统都有可用的,人们仍然是您最好的资产。

思想的食物

在计划灾难恢复时需要考虑的几个问题:

  • 备份设计中是否有错误的假设?
  • 你有没有考虑过备用通信系统,以防主连接中断?
  • 你知道在哪里可以安置一群IT人员,他们需要离你的数据中心很近吗?
  • 你对自己在这样的灾难中成功的能力有多大信心?

如果您没有对这些问题的良好答案,可能会有一些缩放会话才能进行。

加入网络世界社区有个足球雷竞技app脸谱网linkedin对自己最关心的话题发表评论。

版权所有©2021.Raybet2

IT薪水调查2021:结果是