2022年7月8日,加拿大电信服务提供商Rogers因内部系统的“更新出错”,致使全国互联网访问中断至少12小时,一些客户甚至在之后几天内仍在经受网络中断困扰。
此次事件影响十分深远。全国范围内的互联网中断影响了约1220万客户的电话和互联网服务——约占加拿大互联网容量的25%。即便不是由Rogers直接控制的服务,例如Interac网络上的销售点借记支付、911报警服务、医院的网上预约系统,甚至连依赖蜂窝GSM计时的多伦多交通信号灯都受到了影响。
值得一提的是,此次服务中断还迫使加拿大音乐家The Weeknd推迟了他在多伦多Rogers中心(第一站)举行的世界巡演。
究其原因,正如Rogers随后在向监管机构加拿大广播电视和电信委员会(CRTC)提交的文件中所揭示的那样,“此次更新删除了一个路由过滤器,并允许所有通向互联网的路由经由路由器传输。结果,路由器立即开始在整个核心网络中传播流量异常大的路由。某些网络路由设备淹没于庞大流量中,不堪重负,随后无法路由传输流量,导致公共核心网络停止处理流量。结果,Rogers 网络与互联网断开连接,消费者和企业客户的无线网络和有线网络的所有出入站流量因此中断。”
尽管Rogers在一天之内就为大多数客户恢复了服务,但灾难性的服务中断仍令加拿大企业深感震惊,并对国内的“垄断”现状产生了担忧。
例如,由农场和农业供应零售商Peavey Mart经营的大约100家网点,可以对已经存在的其他互联网提供商进行冗余访问。结果,只有两家没有互联网接入的商店受到直接影响。但是,他们依靠Interac服务进行客户交易,而该服务又完全依赖于Rogers,他们也由此失去了使用借记卡付款的能力。
并非单纯的国内问题
加拿大非营利组织虚拟首席信息官(VCIO)兼战略技术顾问Helen Knight介绍称,“我服务的一些非营利组织在一两天内都无法记录并满足弱势群体的需求。就我自身而言,我13岁的女儿一直到晚上10点多才回来,而在此期间,我都无法与孩子取得联系。我担心她遇到危险,无法回家。”
其他人可能就没这么幸运了。WhiteWater West Industries的IT运营和帮助台支持经理Chris Palsenbarg称,“作为一家生产滑水道和水上乐园景点的全球性公司,Rogers网络中断事件对我们的影响确实比我们最初想象的还要大。出国公干的员工甚至无法使用手机。”
加拿大网络安全/智能公司Sapper Labs Group的首席情报官Dave McMahon表示,“尽管我们的公司没有受到Rogers服务中断的影响,但我们的许多合作伙伴、客户和竞争对手都受到了不同程度的影响。一些组织尚未完全恢复,这对市场产生了连锁反应。”
在经历Rogers服务中断事件后,加拿大的CIO、IT高管和专家开始重新审视自身是否准备好应对未来的挑战。他们的结论值得世界各地的CIO关注,因为全球各国都可能遭遇类似的服务中断风险,只是原因会各有不同,可能是系统问题、黑客入侵,也可能是由于环境或其他因素导致的电源故障。
教训一:构建冗余
Rogers的服务中断强调了拥有冗余互联网服务提供商(ISP)访问的价值,尽管这样做的成本比仅仅依赖一个要高。在有些公司还在对这笔额外费用犹豫不决时,Peavey Mart(上述提及)已经因自身的远见卓识从Rogers事件中幸免,获得了冗余互联网访问支出提供的价值。
Peavey Mart公司信息技术高级副总裁Shaun Guthrie表示,“Rogers ISP网络的故障并没有让公司措手不及,因为我们会主动监控数据通信的状态。因此,一旦商店受到服务中断的影响,它们就会通过支持SD-WAN的基础设施自动转移至二级ISP。”
加拿大救世军等非营利组织负担不起Peavey Mart使用的这种基础设施。但他们的CIO都是技能卓越的专家,习惯于使用免费软件和捐赠的硬件完成惊人壮举。他们甚至早已习惯陈旧的IT基础设施出现故障,因此他们通常都有一个手动流程以备不时之需。
因此,加拿大非营利组织的CIO有能力应对ISP故障,至少在意外实际发生时确实是这样。不过,Knight 认为,服务中断造成的数据丢失后续还是会影响到他们,因为他们没有正确的记录向捐赠者来展示他们服务了多少人,这可能会影响未来的捐款。
面对这种情况,Knight认为Rogers的服务中断事件可能会改善非营利组织对冗余ISP访问的态度。她解释称,“毕竟,多年来,为所有关键业务组件提供冗余连接一直是一种常见做法,因此,希望非盈利组织也能通过此次事件了解他们以前可能没有考虑过的新风险领域。如果这件事能够让非营利组织认识到,需要有一位高级技术领导者参与决策制定,使他们的战略计划与他们的技术路线图保持一致,那么这很可能是吸取这一教训的最便宜和最简单的方法。这比直面网络入侵要好得多!”
教训二:检查供应商的备份计划
McMahon指出,对于Sapper Labs公司来说,Rogers的服务中断增强了我们对自身架构和运营模式的信心。这种信心强化了公司的IT基础设施并非孤立存在的观点。它是通过互联网连接到企业的ISP、云平台和其他服务链中的一个环节。
因此,Rogers的服务中断事件给出的教训是,要确保一个供应链、合作伙伴和客户都做好了同样的准备,并有适当的应急措施来帮助他们维持业务运营。令人欣慰的是,此次事件能够立即检验出谁是Rogers的客户,他们是否有替代的通信方式、他们的网络安全成熟度以及整个生态系统的关键相互依赖关系。
Peavey Mart公司同样在努力检查其数据供应链中的漏洞。Guthrie介绍称,“我们询问了所有的云提供商,‘你们有冗余吗?’‘你们是否有内置的备份系统?’‘你们是否有业务连续性之类的东西,以便故障发生时,员工知道怎么做?’这些问题我们都会提前了解清楚。”
不幸的是,像Peavey Mart这样的零售商没有足够的影响力,要求像Interac这样的大型企业提供这样的答案。结果,他们别无选择,只能假设Interac有这样的备份措施,而显然他们并没有。
教训三:为更多的ISP事故做好准备
Rogers的服务中断事件解决之后,迎来了政府调查、负面媒体报道以及大量可预见的公众愤怒。但这些反应都无法改变一个非常简单的事实:ISP网络是由许多部件组成的复杂而庞大的系统,这些部件对维护升级的响应无法在模拟中完全建模。
结果,即便Rogers承诺做出所有改进,并且其他加拿大ISP可能会出于谨慎考虑复制其改进成果。但Guthrie认为,“未来,我们可能会目睹更多的ISP事故。虽然我并不知道下一个会是谁,但我认为它很可能会在未来一年内发生。”
在这种情况下,所有依赖ISP访问的企业的CIO现在需要采取措施来保护他们的企业免受此类中断的影响。根据Dave McMahon的说法,前进的道路很明确:“双供应商和冗余独立系统是行业的最佳实践。”
同时,CIO需要保持谦虚,不要高估他们事先计划此类事件的能力。根据Knight所言,“技术是如此无处不在且复杂,在过去几年中,每个人和企业都面临着新的、复杂的技术挑战,尽管可以保护公司免受Rogers式中断的影响,但要防止所有风险是不可能的或不具有成本效益的。相反地,它关乎的是量化每个风险的影响和紧迫性,并为最关键的运营领域确立组织连续性计划优先级。”
结语
Rogers式的ISP中断是一场现实危机,未来几年,全球各地企业的CIO可能或很可能会面临这种危机。这就是现在必须加强冗余系统并准备应急计划,以最大程度地减少和缓解此类通信故障对企业造成的不可避免的影响的原因。