在CrowdStrike的重大故障掩盖下,2024年的IT界依旧暗流涌动,其他诸多IT问题同样引人瞩目,如IT系统错误指控员工盗窃,以及PC制造商不慎运送带有恶意软件的设备等。
过去一年,IT领域新闻不断:人工智能及其广泛应用的炒作、科技行业大规模裁员、重大网络攻击以及并购事件频出。
与大多数年份一样,2024年也未能幸免于IT灾难。有的灾难很快被人遗忘,有的则产生了深远的影响,其中一起案件造成的损失高达数十亿美元。
对于本次盘点,我们主要聚焦于除数据泄露外的其他重大IT灾难(关于数据泄露的盘点,可查阅其他相关列表)。同时,我们也曾发布过一份近期人工智能失败的清单,其中部分案例就发生在去年,例如快餐巨头麦当劳在6月放弃了其基于人工智能的点餐系统,原因是该系统不断在顾客账单上错误地添加食物。
灾难的主矿脉
7月中旬,网络安全供应商CrowdStrike的一次软件更新出现故障,导致约850万台运行Windows系统的电脑陷入蓝屏死机,随后进入无休止的重启循环。这些电脑因此变得几乎无法使用。
医院、航空公司航班预订中心、应急响应中心以及公共交通服务的Windows系统均受到了波及。在最初的报告发布24小时后,此次故障仍导致数百个航班被取消,并引发了其他问题。据估算,此次中断造成的损失可能超过50亿美元。
CrowdStrike将此次故障归咎于7月19日发布到Windows系统的传感器配置更新中的一个漏洞,该漏洞存在于其软件测试工具中。具体而言,漏洞位于一种名为“快速响应内容”(RapidResponseContent)的攻击特征更新中,相较于CrowdStrike的其他一些更新,该更新所经历的测试并不那么严格。
故障后的余波迅速蔓延,并持续至今。这一事件促使一些首席信息官重新考虑对云基础设施的依赖,并促使微软更加关注其他软件包的内核级访问权限。
与此同时,达美航空公司对CrowdStrike和微软提起了5亿美元的诉讼,并重新评估了使用微软产品的决定。
数百万未接来电
尽管CrowdStrike的宕机规模巨大,但与2月份AT&T移动服务的中断相比仍显逊色。AT&T的移动服务中断影响了美国1.25亿台移动设备。据美国联邦通信委员会(FCC)称,此次中断持续了12个多小时,导致约9200万个电话无法接通,其中包括2.5万个911紧急电话。设备配置错误是造成此次大规模中断的原因。
FCC表示,虽然AT&T花了近两个小时才恢复网络变更,但全面恢复服务则至少需要12个小时,因为移动运营商的设备注册系统被大量重新注册网络的请求所淹没。
今年6月,AT&T的客户再次报告了一次服务中断。美国东部时间6月4日下午1点,服务中断的报告开始激增,然后在下午6点左右逐渐减少。纽约市、芝加哥、费城、达拉斯、匹兹堡和印第安纳波利斯周边地区显然受到了影响。
麦当劳的IT困境
除了人工智能点餐系统错误地认为顾客想要200多份麦乐鸡外,麦当劳还遭遇了其他IT问题。今年3月,一场影响信用卡订单的广泛停电持续了约12个小时,包括在线和自助支付服务均受到影响。
远东、欧洲、美国和澳大利亚的麦当劳餐厅都报告了信用卡支付问题,问题归咎于令人担忧的第三方配置更改。该公司的全球首席信息官没有提供具体细节,但指出此次宕机与网络安全攻击无关。
第三方软件更新的风险
麦当劳并非唯一一家受到销售点(POS)服务中断困扰的公司。英国超市特易购、塞恩斯伯里和面包店连锁店格里格斯在第三方POS系统出现问题时,也遭遇了与麦当劳类似的困境。在大多数情况下,问题在一个工作日内得到解决,但在此期间公司无法处理信用卡支付。
在某些情况下,受影响的公司报告称问题与软件更新有关,这引发了对第三方POS提供商可靠性的质疑。
聊天机器人的失控
人们可能会认为,在类似事件不断发生后,相关方会从中吸取教训。然而,今年2月,微软对其人工智能聊天机器人“副驾驶”(Copilot)展开了调查,原因是社交媒体上有报道称该机器人嘲笑那些暗示自己考虑自杀的用户。微软发现,这些不良响应是提示注入攻击的结果,在这种攻击中,用户能够覆盖大型语言模型人工智能中的安全控制。微软表示,这些不良回复仅限于少数情况。
但问题在于,这并不是微软第一个失控的聊天机器人。早在2023年初,一个与必应捆绑在一起的人工智能聊天机器人就开始向一些用户示爱,并侮辱其他用户,称他们丑陋,并将他们比作希特勒。
更早之前,早在2016年,微软在Twitter上发布的实验性人工智能聊天机器人Tay就曾表达了对种族灭绝和纳粹的支持。我们在这里似乎看到了一种令人担忧的趋势。
今年2月对Copilot的调查并非微软人工智能助手遇到的唯一问题。去年11月,微软推出了新工具以防止Copilot过度分享员工机密信息等数据。
财政援助的惨败
今年3月,美国教育部表示,他们发现数十万大学生的助学金计算存在错误,导致助学金发放延迟。
教育部指责一名为联邦政府工作的供应商在计算经济援助公式时出错,影响了20多万名学生。
这一错误发生在教育部对联邦学生援助免费申请(FAFSA)进行全面改革之际。FAFSA是用来确定学生是否有资格获得联邦佩尔助学金和其他经济援助的。
供应商显然没有将某些资产(如投资)纳入一些学生的经济需求考虑范围,导致分数显示他们有比实际更多的经济需求。
与此同时,该部门对FAFSA表格的彻底改革也造成了财政援助申请过程的延误。虽然表格通常在10月份就可以填写,但直到12月底才准备就绪,而且直到3月份,该部门才开始处理表格并将其发送给各州和大学。该表格仅在12月底至1月初期间偶尔提供。
教育部在处理表格时还遇到了一些小故障和错误。其中一个小故障阻止了没有社会安全号码的父母填写表格。
目前尚不清楚这些问题中有多少是纯粹的IT灾难,或是IT灾难与用户错误混合的结果。这似乎是由一系列错误共同造成的。
恶意软件
今年2月,中国个人电脑制造商Acemagic承认出售了安装了恶意软件的电脑。这一事件引发了广泛关注。
YouTube用户TheNetGuy在测试Acemagic迷你电脑时发现了恶意软件,包括后门程序Bladabindi恶意软件以及RedLineStealer。
在一个令人费解的解释中,该公司指责那些试图通过某些软件修改来缩短启动时间的开发人员。
真正的终结者
正如你所预料的那样,英国皇家邮政(一家由政府运营的快递公司)在富士通(Fujitsu)建造的HorizonIT系统的建议下,于2023年底和2024年初解雇了700多名员工。该系统错误地指控前雇员通过谎称他们控制的账户中资金丢失来从服务中窃取资金。
一些新闻报道称,Horizon早在1999年就已安装,但它并未与皇家邮政的监管人员分享已知错误的文件。此外,皇家邮政的员工多年来一直抱怨资金丢失的误报问题。
2023年,英国皇家邮政曾试图从Horizon系统迁移到云端,但这一努力并未成功,耗资高达3100万英镑。1月下旬,富士通被暂停竞标英国政府合同。