2016年,多个系统故障导致长签入行,航班取消,旅客在机场露营,几个航空公司的声誉使意外下降。他们会做些什么不同来阻止这些危机或恢复更快?
让我们看看几个例子。
7月份美国西南航空公司的问题下来一个失败的网络路由器。达美航空的全国性的系统宕机8月份的电涌,导致自动转换开关故障,记下500台服务器。不幸的是,系统和设备没有备份电源自动切换。这些不幸的结果吗?每个航空公司取消了2000多个航班,并出现负面的媒体报道,包括推特风暴从沮丧的客户。
很明显,航空公司必须做更多的工作来确保他们的客户体验无缝服务。尽管关键需要正常运行时间航空业仍然艰难进步的旧技术的核心,没有出现维护使用it基础设施和网络管理的最佳实践。
这是我的思想在航空公司如何努力防止停机事件,他们还是他们的受害者,应该得到迅速恢复运转。
防止航空系统停机时间
为了避免停机,以免影响客户服务,航空公司需要冗余技术的负载平衡,使用和监控如下:
- 需要两个:这些航空公司的公分母中断是缺乏可用性。尽可能多的,航空公司(和其他企业的关键业务)应该复制他们的技术。这种做法确保了如果一个组件失败,另一个是站在,准备接管。例如,为什么不西南有冗余路由器吗?这除了他们的技术基础设施允许业务继续运行。相反,他们遭受了2000飞行cancellations-a严重成本缺乏准备。
- 维护一个平衡:除了创建技术的诺亚方舟,航空公司需要负载平衡。合并后的工作负载在两个路由器作为彼此的故障,例如,不能超过100%的最大负载都可以处理。如果你工作在最大负荷的80%和40%,故障转移从一个到另一个是不可能的。以确保工作负载不超过安全限制,您需要监视您的IT基础设施。
- 使用它:冗余技术不应该坐着无所事事只是等待它的故障事件。它应该被用来减轻工作量和减少对其他组件的磨损。但更重要的是,如果它是启动和运行和管理员不断监视,他们知道如果它或如果它不工作,他们可以修复它之前有一个危机。
确保系统快速恢复
尽管最好的意图,有时墨菲定律规定:“任何可能出错,出错。“如果是这样,它不应该把6到12小时,在三角洲和西南的情况下,复苏阶段。有四个成分无缝复苏:灾难恢复站点的地理多样性,建立自动线路备份,故障转移测试和全面监控。
- 规划完美的故障:因为航空公司需要零停机、自动故障转移可以帮助。有系统故障时,不需要人工干预,它移动到另一个应用程序服务器。它可以是昂贵的,但解决方案的费用需要给人体带来的乘客前往目的地。
是否手动或自动,航空公司需要测试故障转移过程和设备,以确保它的工作原理。他们可能想在第一季度的主要位置和第二季度的灾难恢复站点。当他们在灾难恢复站点上运行操作,他们可以利用有效的时间做维护和升级的主要数据中心。雷竞技电脑网站 - 多样化的地理位置:在佛罗里达州一家航空公司,例如,需要有一个灾难恢复站点的另一个地理区域。毕竟,有高风险飓风可以糟蹋他们的基础设施。但即使在其他国家较低的风险概况,灾害仍然可以罢工的形式暴风雪、洪水和火灾。所以,航空公司应该选择灾难恢复站点距离足够远,减少重复的环境威胁和足够接近保持低延迟,使他们能够反映数据有效的和有效的。
- 监控IT基础设施24/7/365
经常花了很长时间找到问题的核心原因停机事件。因此,航空公司需要使用一个全面的IT基础设施监控系统。它应该监督服务器、存储、SAN和应用程序,这样他们就可以迅速找出问题和深入,例如,失败的路由器。没有详细的数据系统,管理员在各个方向运行,闲逛找海里捞针。监控解决方案,然而,可以突出故障诊断的问题,把六个小时20分钟。
+你怎么认为?把你的评论航空系统中断我们的Facebook页面+
虽然航空公司可能需要升级他们的一些技术,他们可以采取其他措施,以减少停机时间。防止问题,他们应该安装、使用和监控冗余技术,以确保它工作负载平衡。和最小化停机事件的长度,他们需要地理上不同的灾难恢复站点,一个全副武装的计划故障转移,全面的系统监控。