近期,超强冬季风暴“埃利奥特”(Storm Elliott)导致美国民航业在圣诞假期的这一周里,经历了“数十年一遇”的严重瘫痪。航班信息追踪工具FlightAware的数据显示:从12月21-26日,全美航班取消总数超过了1.7万架次。
好在,在极寒气流经过之后,临近圣诞前夕和圣诞节当天,各航空公司已经恢复到正常的80%以上的水平。唯独西南航空(Southwest Airlines)成了异类:其取消的航班数量越来越多,整个航空公司从圣诞节的五天前开始陷入完全崩溃,直到圣诞节的三天后,仍然处于完全瘫痪的状态。虽然天气可能是根本原因,但其在12月19日至28日期间取消的16000次航班带来的运营影响已经远超其他航空公司。
专家指出,与许多大型航空公司使用的轮辐式运营模式相比,西南航空的点对点运营模式使其很难从重大天气问题中恢复过来。专家和西南航空的领导层也认为,该公司的技术是造成这场灾难的原因之一。西南航空飞行员协会(Southwest Airlines Pilots Association)主席Casey a . Murray表示,“西南航空使用的仍然是20世纪90年代的IT和基础设施。在技术方面,西南航空一直处于落后地位。”
据了解,西南航空一直在使用一套极其古老的后端系统。特别是其机组排班平台,系统十分古老。具体来说,一般航空公司需要看一下自家的实时系统或者 FAA 的公开数据,就可以知道自家的飞行员和空乘的当前所在地。但西南航空采用的却是一套非常过时的“预排+手动记账”系统:
- 西南为机组人员排班之后,会自动把他们的位置,挪动到该次航班的目的地;
- 如果航班发生了改道、延误和取消,西南的系统无法自动更新这些机组人员的位置,而是需要人工确认航班的具体情况,然后在排班平台上手动修改;
- 在各地暴风雪导致大面积延误+取消的情况下,西南员工需要进行大量的人工追踪+手动修改。最终导致人力不足,无法及时追踪航班最新情况和进行对应修改。
最后雪球越滚越大,排班平台出现了严重的信息误差,基本没有一条是准确的。整个系统,就这样完全“失灵”了。
关于这次故障的更多细节肯定会在接下来的几个月里浮出水面。CIO们知道,当企业遭遇运营灾难时,技术问题是罪魁祸首,但我们也知道,文化和流程问题可能是主要的,而且往往是不为人知的因素——这两者都在CIO的职权范围内。
因此,我们利用这个机会,根据从西南航空的IT灾难中了解到的情况,指出了CIO应该考虑的5个关键问题。
1. 你对数字化转型的投资是否足够?
西南航空最近宣布,从1月31日起将向股东支付每年4.28亿美元的季度股息。它们还获得了70亿美元的疫情援助,并在2017年至2019年期间进行了56亿美元的股票回购。
那么,他们在数字化转型上投入了多少呢?2017年,《Fast Company》杂志写道,西南航空公司的数字化转型正式“起飞”,耗资8亿美元进行了技术改造,但只有3亿美元用于运营新技术。
鉴于西南航空2017年的市值为330亿至380亿美元,这笔投资似乎微不足道。自那以后,它的市值开始大幅下降,但考虑到用于回购和股息的资金,他们难道不应该投入更多资金来加速转型吗?
这就是我对CIO们提出的第一个问题:你们在数字化转型上的投资是否足够?如果你的企业落后于竞争对手,或者遗留系统和技术债务构成重大运营风险,你是否与其他高管和董事会建立了牢固的关系,以提高标准?
CIO必须防止其数字化转型优先事项出现倒退,投资不足和放缓会对客户、员工和财务业绩产生负面影响。如果这不能动摇执行委员会,也许西南航空的股价在去年12月下跌了近16%,以及不得不回应联邦调查的担忧会引起他们的注意,进而考虑加大数字化转型投资。
2. 什么工具和协议有助于危机期间的沟通?
据CEO Bob Jordan所言,西南航空公司没有一种快速、自动的方式来联系被重新分配的机组人员。他们要求员工手动汇报自己的当前所在地,所谓手动汇报方式,就是让所有机组人员拨打同一个热线电话,或者在机场追上他们,告诉他们信息。结果,全国成千上万名机组员工拨打同一个电话,甚至有些员工排队等待的时间就长达23小时,引发了“次生灾难”。
很难相信西南航空公司(更不用说其他大型企业了)没有技术和自动化程序来联系员工,告知他们运营上的变化。在危机期间,企业应该得到多种技术的支持,以接触到员工,确保他们的安全,并提供支持操作的协议。
另一个关键问题是,呼叫中心是否配备人员,是否拥有可扩展的技术,以支持危机期间经常发生的海量电话和通信。
虽然我们都应该同情受到危机影响的客户,但企业领导者也必须考虑到员工和他们的福祉。Murray报告说,飞行员和机组人员等了数十个小时才和工作人员讨论重新分配的问题,数百名飞行员和机组人员甚至睡在机场乘客旁边。
3. 在危机中,你能多快地重新调整业务?
在运营之外,领导者和管理者是否有协作工具、实时报告仪表板和预测机器学习模型来帮助决策?团队多久安排一次桌面练习来模拟假设场景?IT部门是否投资或试行了数字孪生模型,以帮助在危机期间模拟运营变化并支持决策?
像其他航空公司一样,西南航空依靠调度软件来安排飞行员、机组人员、飞机和其他设备的航线。但当出现大规模问题时,依赖人工操作是很有问题的。代表西南航空调度员和气象学家的Transport Workers Local 550主席Brian Brown称,“这需要更多的人为干预、人类的视力或智力,而人的能力无疑是有限的。”
4. 你的企业是否从过去的失败中吸取了教训?
这不是西南航空公司第一次取消航班,并将天气问题归咎为主要原因。他们在2021年的一个周末取消了1800多次航班,西南航空的飞行员工会将其归咎于管理层的“糟糕规划”。
通常情况下,你会看到企业从危机中恢复过来,解决一些最显而易见的问题,然后恢复正常业务。CIO面临的问题是,他们能否利用一场危机,围绕更全面的改进来证明一个足够强大的业务案例。
5. 你的企业是否有文化来支持软件开发?
开发和维护专有软件和定制需要持续致力于人才开发、产品管理规程和DevOps实践。这需要谨慎地决定投资哪些功能,以及平台何时达到寿命尽头并需要实现应用程序现代化。
西南航空用于机组人员分配的软件SkySolver是几十年前开发的定制现成软件,由航空公司定制。该软件是西南航空延误恢复运营的根源,我怀疑该公司的IT领导现在将得到更换该软件的支持。
当然,没有人愿意等待灾难来推动遗留系统的现代化,特别是在复杂的操作系统方面。过多的紧迫感和压力会促使团队选择次优的合作伙伴,犯代价高昂的架构错误,或者在可伸缩性、质量或安全性方面投资不足。
因此,CIO面临的关键问题是,他们如何利用这次危机,向董事会和执行委员会传授敏捷软件开发和云运营的基础知识。许多高管仍然认为软件开发是一次性的投资,维护预算是可自由支配的,仅仅迁移到云就可以消除IT基础设施的瓶颈。
CIO知道,永远不要浪费一次好的危机来推动心态的改变。利用今天的热点事件来提出棘手的问题,可以成为获得数字化转型支持和投资的催化剂。