本月初,澳大利亚电信发生大规模停电,导致1000万澳大利亚人和40万家企业长达12个小时无法使用电话和互联网,澳大利亚电信的CEO Kelly Bayer Rosmarin本周辞职,突显了为业务弹性制定IT战略所涉及的利害关系。
在澳大利亚参议院上周的一次调查中,澳大利亚电信负责网络的董事总经理Lambo Kanagaratnam对议员们说,澳大利亚电信“还没有针对这种具体的停电规模制定计划。”Rosmarin本人承认,在停电之前,她携带了竞争对手沃达丰的一张备用SIM卡-自停电以来,她现在携带了竞争对手Telstra的第二张备用SIM卡。
在停电期间,澳大利亚电信未能接通228个紧急电话,其中包括一名心脏病发作男子的同事打来的电话。
网络中断显示了互联系统中的漏洞,提醒人们,系统复杂,可能会出错,它为CIO们提供了一些重要的教训,让他们现在就采取谨慎的行动。
与澳大利亚电信停机事件一样,这类事件远不是孤立的异常情况,许多企业都会发生严重程度不同的事件。根据Uptime Institute的2023年年度停电报告,行业分析发现,此类中断的成本正在上升。
对于CIO来说,处理此类事件不仅仅是管理IT系统,它需要结合远见、战略优先顺序以及制定有效的灾难恢复计划。澳大利亚电信故障为评估提供了提示,为IT领导者提供了关于如何更好地加强防御以及如何在出现问题时更好地响应的洞察。以下是最近这起备受瞩目的IT故障的一些关键教训。
采用先测试再更新的原则
澳大利亚电信最初的报告称,此次停电是因为在一次“例行软件升级”之后,“对来自国际对等网络的路由信息进行了更改”,自那以后,母公司新加坡电信驳斥了这一解释,称澳大利亚电信路由器的安全系统存在问题,而不是软件升级。
Bayer Rosmarin在她的参议院证词中表示,根本原因是该公司的路由器“遇到了故障保护机制,这意味着它们每一个都独立关闭”,她说这一事件是“由新加坡电信国际对等网络的升级引发的”。
尽管如此,这次中断强调了一个重要的问题:在进行更新之前,尤其是企业范围内的更新或网络范围的更新,建议在上传到网络之前在内部系统上进行测试。“这就是他们所说的‘胖手指’,”电信分析师Paul Budde说。
“如果其中有一个错误,你希望网络识别它并过滤掉它,或者你可以在整个系统中获得这种连锁效应,”Budde说,“如果整个网络都瘫痪了,技术人员进入系统就会有问题,那么问题就变成了:你的冗余是什么?”
在澳大利亚电信的案例中,修复涉及对澳大利亚14个地点的100多台设备进行系统重置。ABC新闻根据参议院调查文件的一篇报道称,一个由150名工程师和技术人员组成的核心小组总共努力修复停电,“其他250名工人和五家跨国公司也提供了支持”。
找出薄弱环节并加以解决
IT研究和咨询公司Adapt的数据和分析主管Gabby Fredkin表示,至关重要的是绘制公司的基础设施图,对服务进行细分,以便在发生故障时能够独立工作,找出薄弱环节,并对这些薄弱环节进行压力测试,以了解系统中的任何漏洞。
“说起来容易做起来难。”Fredkin承认。
尽管如此,网络的健壮性取决于其最薄弱的方面,当出现单点故障时,特别是当它与关键基础设施有关时,它可能会导致严重的系统范围停机。至少,CIO必须知道系统中存在这些单点故障的位置,以帮助确保冗余,并为围绕优先级和预算做出决策提供背景。
你可能无法在整个网络中使用冗余路径,这太昂贵了,但当你的企业或其他企业发生重大故障时,这是一个评估风险与成本的机会,“EneX测试实验室董事总经理Matt Tett说。
他说:“有必要审查预算,考虑在网络上有更多的双负载是否有益,以减少未来的一些痛苦。”
为不可避免的停机做好计划
即使他们没有监管像澳大利亚电信这样的庞大网络,IT领导者和他们的高管同行也必须为他们自己或他们的服务提供商的停机做好计划,因为即使是小的或局部的停机仍然可能扰乱业务及其客户。
“重要的是要审查你的业务连续性计划,并确保在可能的情况下有某种备份,以继续一切照常。”Tett说。
这一业务连续性计划可能包括恢复到纸质系统、转向蜂窝覆盖而不是互联网、确保高管和关键员工拥有双SIM卡电话以切换网络以确保通信连续性或任何与企业相关的流程。
“这就像有一本飞行手册,这样如果你失去了技术的重要部分,你可以尝试并确保有一些离线方法来继续运行。”他说。
进行和灾难恢复有关的对话
CIO可以利用这些引起轰动的事件来推动与基础设施领导者的对话,以审查他们的灾难恢复计划,不要等着什么事情发生,这应该是一种持续的、系统的方法来寻找漏洞所在,“Fredkin说,他引用了Netflix的Chaos Monkey,它会在其生产环境中造成随机中断,作为这家流媒体巨头提高其复杂系统弹性的战略的关键组成部分。
“在他们的系统中制造混乱,让他们能够暴露弱点,看看事情可能会如何发展,并计划和运行可能发生的事情。”他说。
围绕灾难恢复的对话需要让首席财务官和CEO参与,以规划离线和失去客户信任的风险,以及降低这些风险的成本。“一家公司受到的影响可能与另一家公司受到影响的方式有很大不同,所以你必须考虑到这一点。”Fredkin说。
了解第三方风险
根据Uptime的数据,托管数字基础设施服务,包括云、主机托管、电信和托管公司,在当今的停机中所占的比例越来越大,因此,IT领导者必须意识到——并知道如何管理——第三方供应商风险,布德说,“尤其是在成本节约措施和外包已变得普遍的技术环境中。”
对于软件或硬件更新,关键供应商的列表以及更新的时间和性质至关重要。Fredkin说,CIO需要考虑是否可行,向一些客户而不是其他客户推出更新,或者对部分基础设施而不是其他基础设施进行更新,他们还需要找到“一种你可以做一些测试的方法,这样它就不会影响整个生产环境。”他补充道。
“与提供硬件和软件的人保持良好的关系至关重要,了解更新等事情何时提前到来,并对何时将更新推送到你的企业中进行某种程度的控制是非常有益的。”
为IT现代化做好准备
Fredkin建议说,不幸的是,抢占新闻头条的故障往往为IT领导者提供了机会,让他们为IT现代化提出自己的理由,他说,虽然澳大利亚电信的情况并不明确,但当系统下线时,往往与遗留技术问题有关,这些事件可以帮助激励领导层和董事会层面的买入,以更新系统,以确保它们在速度和规模上都是安全和有弹性的。
他说:“当CIO制定现代化用例时,他们需要利益相关者的支持,才能让企业与之同行。”
复杂的关键任务功能可能需要两到三年的时间才能完成,因此还需要一种方法来对工作进行排序,“把它想象成一个红绿灯系统,”Fredkin说,看着什么是关键的,什么是紧急的。“系统中最大的差距是什么?而就长期更新而言,这是一个不同的优先顺序,因为有些事情需要按照特定的顺序进行。”
他补充称:“这是一种经典的瀑布思维,在重新设计关键基础设施方面,这种思维仍然占有非常重要的地位。”
考虑更大的图景
无论是源自你的系统还是网络连接的结果,停机都会同时影响广泛的业务,因此,Budde说,IT领导者可能要考虑超越企业的四个重要元素进行思考。
他说:“一个量身定制的灾难和恢复能力计划需要包括遵守行业标准和定期审查IT系统和协议,以确保健壮性,特别是在应对潜在的网络压力和安全威胁时。”他补充说,根据你所在的行业,此类努力可能需要更深入,而不仅仅是你的企业。
“我们可能需要一些开箱即用的思维,并开始考虑全国性的解决方案和行业范围的解决方案,看看企业如何在这些情况下相互帮助。”他说。
忽视沟通会给你带来危险
最后,但绝不是最不重要的一点是,企业需要一个全面的通信手册来应对何时发生停机或中断,无论这些停机是否是由它们引起的。
EneX测试实验室的Tett说:“就任何停机或问题进行清晰、简洁的沟通是至关重要的。”这种沟通应该沿着链条向上传递到CEO,并向外传递给客户和媒体,以尽可能清楚地了解情况。
企业需要考虑的第一件事是如何清楚地与他们的客户沟通,即使不是他们造成了中断,第二件事是,如果他们因为网络中断而无法与客户沟通,就制定能够通过媒体进行沟通的战略。
它还应该包括某种时间框架,以帮助管理停机和恢复正常业务的预期。“无论是几个小时还是48小时,都要保持开放和透明。”Tett说。