我们从航空公司的IT故障中吸取了错误的教训

将航空公司的IT故障归咎于设备故障或机器幽灵没有抓住要点

今年夏天,多家知名企业都经历了令人尴尬且财务成本高昂的业务中断。

公司高管和周一早上的四分卫对这些服务中断的解释和借口都未能解决这些问题的根本原因:缺乏严格的高级管理层监督。

上个月,西南航空(Southwest Airlines)和达美航空(Delta Airlines)都遭遇了广泛的消费者不满和业务中断,高管们将其归咎于设备故障。权威人士将危机归咎于遗留基础设施的胡乱拼凑。

两者都没有抓住重点。

2016年7月20日,西南航空公司的IT系统因路由器故障而失控,取消了700个航班,数千名乘客滞留。西南航空公司首席执行官加里·凯利(Gary Kelly)将此次停电描述为“千年一遇的洪水”

一千年的洪水和一次IT设备故障摧毁一家企业的区别在于,后者是完全可以预防的。

拥有复杂IT系统的公司采用了防止故障的措施,并采用了多层保护和备份。因此,当它们失败时,原因远远不止一个单一的元素或错误。灾难性的级联失败通常不是由于缺乏标准或备份系统,而是由于管理失败。

检查西南航空公司和达美航空公司的停机情况

让我们看看最近的停机和公司的反应。

西南航空公司估计,金融损失将达数千万美元。西南航空的飞行员和机械师工会都要求凯利辞职,因为这涉及到长期以来围绕自上而下的成本削减的紧张关系。

有人可能会认为,航空业很快就会从这次事故中吸取教训,并引起广泛关注:损失了数百万美元的收入,股价受到负面影响,客户感到愤怒,高管们被媒体指责管理不善。

然而,在西南航空停运后不到一个月,8月8日,达美航空(Delta Airlines)也遭遇了类似的系统故障

根据该航空公司的说法,“……我们技术指挥中心的一个关键电源控制模块出现故障,导致变压器出现浪涌并失去电力。万国电力稳定,电力迅速恢复。但当这种情况发生时,关键系统和网络设备并没有切换到备份。其他系统。现在我们看到了这些系统的不稳定性。”

最初的一些报道将停电归咎于开关设备故障或发电机起火。后来的报告表明,关键服务被安置在单线服务器上,或者双线服务器的两条线都被插到同一个馈线上,这就解释了为什么备用电源无法保持一些关键服务的在线。

根据正常运行时间协会(Uptime Institute)的现场经验和我们为客户提供的咨询服务,我们发现IT员工过于频繁地部署单线IT设备,或错误地将具有双电源的设备安装到单一电源路径中,导致由于疏忽或无知而在设施系统冗余上花费了数百万美元。

在这种情况下,一小部分服务器失去了电力,导致相关系统发生连锁故障,导致数百个航班取消和延误。

达美航空的IT问题持续了数天,导致全球各地数十万乘客滞留机场。航空分析师Helane Becker预计该航空公司将遭受1.2亿美元的营业收入损失从大修中恢复。

据美联社报道,“达美航空公司首席执行官埃德·巴斯蒂安(Ed Bastian)为此次灾难道歉,并表示,尽管他知道该航空公司需要进行技术投资,例如更新移动应用程序——“我们无论如何都不相信我们存在这种漏洞。”

达美航空的首席执行官不需要专家预测数据中心基础设施的生命周期或落后于每个服务器线出口,但他或她需要报告的透明度和问责制链,确保流程和管理结构雷竞技电脑网站跟从以防止或减轻这些问题。

在一天结束的时候,停电发生的实际和可预测的原因,不是性感的,也没有得到关注。几百台服务器没有插入正确的插座——这是配电管理的基本原则。

达美航空为其数据中心投资了多条电力路径——该系统的设计是为了在故障中存活下来。雷竞技电脑网站他们已经具备了维持客户服务的一切条件,但缺乏流程或实施流程导致投资失败。

解决复杂系统故障

大型工业和工程系统本质上是有风险的。组件数量越多,安全规划、管理和操作系统所需的技能和团队合作也就越多。在机械部件和人的行为之间,有数千个可能发生错误的点,并可能触发一系列故障。

复杂的系统故障通常在系统的一个组件或元件发生故障时开始,需要附近的“节点”(或系统中的其他组件)承担故障组件的工作负载或服务义务。如果增加的负载太大,可能会导致其他节点过载并发生故障,从而产生瀑布效应,因为每个组件故障都会增加其他已经承受压力的组件的负载。

尽管操作员错误或单一设备故障有时可能会出现引发一个事件,一个事件并不足以推翻一个健壮的系统,除非条件,系统已经摇摇欲坠的边缘的严重故障,有多个潜在风险因素置之不理的管理。

完全失败需要多个错误,因此将责任归咎于一个孤立的因素是短视的,可以说是寻找替罪羊。

大多数情况下,灾难性的故障不是由于缺乏标准,而是由于对既定程序的故障或规避,从而导致灾难性的结果。

多层复杂系统中断意味着管理失败推动改变和改进。

级联失败的责任是自上而下的。领导决策和优先事项在最关键的层面上表现出来:人员配备和培训不足,被反应性思维主导的组织文化,或减少预防性/主动维护的预算削减。

正常运行时间协会(Uptime Institute)评估了全球顶尖的IT和数据中心运营,以验证组织是否具备流程雷竞技电脑网站、问责制和透明度,以确保数据中心资产的长期性能。

这些评估确保管理层为前线运营商配备所需的资源,以在发生小故障时减轻风险并作出适当反应,避免其级联成大的关键故障。

如果行政领导、经营者和监督机构坚持自己的政策和要求,不为经济或权宜之计走捷径,许多灾难是可以避免的。

遗产责备博弈与现代性谬误

据《华尔街日报》报道,在过去三年中,达美航空在IT基础设施升级和系统方面投入了“数亿美元”,其中仅今年就投入了1.5亿美元。

《华尔街日报》写道:“今年早些时候,(达美航空)任命了一位新的首席信息官,并为其信息技术和基础设施团队引入了新的领导人。”

然而,媒体的传统观点是,航空系统是倒退和脆弱的。

根据《经济学人》“由于年代久远和复杂,航空公司的系统非常脆弱。……随着航空公司合并和更多新功能的添加,它们变得像技术上的毛球,一个小问题突然变成了更大的问题,甚至连专家都难以解开。”

该专栏接着声称,这个问题根本无法解决,成本太高,太复杂,即使是规模最大、最成熟的IT公司也无法解决。

有了IT架构师可以利用的能力、技术和资金,航空公司永远陷入遗留技术死亡螺旋的想法无法令人信服。但它也没有抓住要点。

这些系统在20世纪80年代可能会失败,原因与今天的失败完全相同。几乎所有的IT系统在电源崩溃时都是脆弱的。

按照这个标准,今天的云计算系统是脆弱的吗?

尽管云计算提供商一直致力于构建在硬件故障时具有弹性和可立即转移的应用程序,但压倒性的证据表明,当电力中断时,客户会受到影响。

一篇接一篇的新闻文档中数据中心设施事件的报道转化为云服务中断。雷竞技电脑网站云计算听起来既现代又灵活,但最终总会有一个数据中心。雷竞技电脑网站

近年来,行业专家声称,具有冗余电源路径的数据中心设计正在下降。基于我们在全球范围内认证1000雷竞技电脑网站个数据中心设计的广泛现场经验,证据继续支持基础架构的弹性和冗余。

询问向最大的云供应商提供数据中心容量的公司,考虑到风险,他雷竞技电脑网站们正在构建什么级别的基础设施恢复能力。同时可维护的双路径基础设施是标准。对容错(系统+系统)的关注正在逐渐减少,但“单线程”基础设施是一个只有极少数人愿意承担的风险。

然而,无论是在云端还是在航空公司it部门,站点基础设施的好坏取决于被授权运行它的管理团队。

从最近的IT宕机中可以学到的教训是,你不能从供应商目录中购买透明和持续改进的文化。你不能仅仅通过在一个问题上投入更多的基础设施来解决风险。相反,IT组织需要确保他们的员工得到充分的培训和资源。他们需要确保程序被记录和遵循。如何维护和测试关键资产?

现在,美国国会也参与进来

“民主党参议员爱德华·马基(Edward Markey)和理查德·布卢门撒尔(Richard Blumenthal)在致13家航空公司高管的信中,就最近的服务中断、航空公司的技术系统状况以及在服务中断期间航空公司如何安排乘客提出了10个问题。达拉斯晨报

在高管和政界人士试图分析和建议如何防止或缓解未来航空公司IT停机的时候,我们希望他们能看到这些故障背后的管理原则,而不是目前针对损失所引用的单一故障点。

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn评论最重要的话题。

版权©2016Raybet2

资讯科技薪酬调查:结果在