对于航空公司信息技术的健康和一致性来说,这几个月并不好。几周内,两家美国航空公司相继发生了两次由简单部件故障引起的大规模故障,导致大量乘客出行中断,导致两家美国航空公司损失了数百万美元的收入和客户赔偿。
对于那些经历过这些事件的人来说,这些事件当然是最痛苦的,但也为我们提供了很多学习和改进自己过程的机会,这也是我想在这篇文章中探讨的。
达美航空和西南航空的宕机表明了一个IT故障是如何在错误的时间出现在错误的地点的仍然即使经过这么多年的规划和对灾难恢复重要性的讨论,灾难恢复很快就会花费数百万美元,甚至在短短几个小时内。
我们已经有了几十年的高可用性选项:采用不同的方法,要么使用更强大的冗余硬件进行扩展,要么在热备份和集群中使用更廉价的商用机器进行扩展,Windows和Linux的故障转移选项可以在几毫秒内跨地域移动操作,现在甚至可以将基础设施作为一种服务,当你需要时,你可以在别人的数据中心运行备份操作。雷竞技电脑网站
这些选择的成本也都降低了。过去需要数百万美元的预算来构建任何类型的故障转移能力,现在故障转移可以像用信用卡购买几个小时的运行时服务一样简单。(对于一家价值10亿美元的航空公司来说,这当然过于简单了,但我们大多数人并不运营价值10亿美元的航空公司。)