850万台电脑是如何被干瘫痪的?

从7月19日中午开始波及全球20多个国家的“蓝屏死机”事件逐渐平息,受影响的众多航空、银行、旅游公司的业务系统如今也都陆续恢复了正常。
2024-07-27 09:17:21  |   作者:航标  |   来源:航标IT精选

850万台电脑是如何被干瘫痪的?

从7月19日中午开始波及全球20多个国家的“蓝屏死机”事件逐渐平息,受影响的众多航空、银行、旅游公司的业务系统如今也都陆续恢复了正常。
2024-07-27 09:17:21
作者:航标
来源:航标IT精选

经过一周的喧嚣,从7月19日中午开始波及全球20多个国家的“蓝屏死机”事件逐渐平息,受影响的众多航空、银行、旅游公司的业务系统如今也都陆续恢复了正常。

根据微软发布的消息,受此影响的电脑数量高达850万台,占Windows系统总量的1%,全球20多个国家的航空、医疗保健以及银行业等行业或公共服务受到波及,美国航空、达美航空等一度停飞,特斯拉也暂停了部分生产线,这起事件被称为有史以来最大的IT中断事故之一。

7abdef60fbe545a0a32864c08f177b8c.jpeg

此次事件再次凸显了现代社会一旦IT系统出现故障,将给我们的工作和生活带来多么巨大的影响。为了避免类似事故的再次发生,我们有必要重新审视并评估这些高度依赖的系统。

一次例行更新引发的灾难

时至今日,此次“蓝屏死机”事件的来龙去脉已大致清晰。从7月19日中午起,全球多地的Windows用户开始在社交媒体上反映微软电脑出现蓝屏,导致计算机系统无法正常运行,即所谓的“蓝屏死机”(Blue Screen of Death, BSOD)。这些电脑在重启后依然会再次进入蓝屏状态,而且问题不仅限于桌面终端,还波及了大量服务器和云端桌面。

原因也很快被查明,是由CrowdStrike最新推送的软件更新引发的。CrowdStrike是一家知名的网络安全公司,通过SaaS模式为全球客户提供终端安全服务。其安全服务依赖于端点保护平台CrowdStrike Falcon,该平台包括两部分:一部分位于云中,负责完成病毒的识别工作;另一个是安装在终端上的轻量级代理,负责策略执行。这个代理会频繁更新,以执行新的安全策略和程序以应对最新的安全威胁,有时甚至每天更新几次。

据CrowdStrike解释,此次事件是由于向该公司的终端安全软件“Falcon Sensor”推送了错误的配置更新,与Windows系统发生了兼容问题,导致安装了该安全软件的计算机出现蓝屏。Windows的蓝屏是操作系统的一个标志性画面,它的出现意味着系统遇到了严重的、无法恢复的故障,从而触发了系统自我保护机制。

事故的罪魁祸首是一个名为CSAgent.sys的功能模块,这是CrowdStrike Falcon的主要功能模块之一,负责文件过滤、网络过滤和进程管控等功能。该模块在启动时会读取策略配置文件,由于推送的却是不正确的配置文件,引发了不当的策略配置,触发了一个逻辑错误,导致系统崩溃并触发了蓝屏保护。

这次配置更新之所以引发如此大的风波,还有一个原因是系统的恢复需要人工干预,必须重启到安全模式下,到指定文件夹删除错误的文件后,再重新正常启动,而且这一过程无法自动回滚,从而延缓了系统的恢复。

据报道,这并非CrowdStrike首次出现此类问题。几个月前,类似的问题就曾发生在Debian和Rocky Linux系统上,只是当时并未引起广泛关注,CrowdStrike也未给予足够重视。

值得庆幸的是,由于CrowdStrike是一家美国公司,其业务尚未正式进入中国,因此在中国订阅其服务的企业很少,除了少数跨国公司在华企业外,基本未受到此次事件的影响,中国国内因此也几乎感受不到此次事故的冲击。

“蓝屏死机”事件的教训

经过此次史上最大规模的“蓝屏死机”,CrowdStrike这家网络安全巨头也进入公众视野。尽管大多数中国用户对CrowdStrike很陌生,但这家公司绝非泛泛之辈,而是终端安全行业的头部企业。

CrowdStrike成立于2011年,由George Kurtz等3人共同创立。George Kurtz毕业于会计专业,但他对网络安全显然更有兴趣。他在CrowdStrike之前还创立了一家名为Foundstone的公司,并成功将其出售给McAfee。他继续在McAfee积累经验后,直到2011年离开创立了CrowdStrike。

CrowdStrike之所以能够在竞争激烈的网络安全市场中脱颖而出,关键在于其创新的技术理念和产品。传统的终端安全主要依赖签名技术来识别病毒和恶意软件,其实质是提取病毒或者恶意软件的代码特征,安全软件通过特征库的更新来查杀最新的病毒,但这种方法对于未知威胁的防范能力有限。

而CrowdStrike则采用了更加智能的云端安全解决方案——CrowdStrike Falcon平台。该平台通过云端的人工智能和机器学习技术,结合轻量级的终端代理,实现了对全球客户的实时自动检测和预防功能。而且,这个平台还有一个优势是,随着客户数量的增加和数据的积累,CrowdStrike Falcon平台会变得更加智能和高效。

正是凭借这种先进的技术优势,CrowdStrike在网络安全领域如鱼得水。自2019年上市以来,其市值持续攀升,一度突破900亿美元大关。尽管“蓝屏死机”事件对其市值造成了一定的冲击,但截至目前,CrowdStrike的市值仍保持在600亿美元以上。

据市场研究机构IDC的数据显示,在规模达86亿美元的“端点检测和响应”(EDR)软件市场中,CrowdStrike占据了约18%的市场份额,紧随微软之后,位列市场前列。Gartner的数据也显示其行业优势地位,Crowdstrike在全球安全软件市场占有近15%的份额。

和其他网络安全软件一样,CrowdStrike的本地代理也需要运行在内核态,因为需要深入访问操作系统来进行威胁扫描,这种访问权限因此潜在着安全风险,这也正是此次“蓝屏死机”事件的根源。

显然,此次事件给CrowdStrike和所有依赖其服务的用户敲响了警钟。作为网络安全领域的头部企业,CrowdStrike在推动技术创新和产品升级的同时,也需要更加严格地控制产品质量和兼容性测试,确保每一次更新都不会对用户造成不必要的损失。

对于广大用户而言,此次事件也给我们上了一课。首先,我们需要重新审视和评估企业的业务连续性计划,确保在类似事件发生时能够迅速恢复业务运营。其次,我们应该对自动更新策略保持谨慎态度,特别是对于关键任务系统,应该制定更加严格的更新流程和测试机制。此外,采用多云策略也是降低风险的有效手段之一,通过将业务分散到不同的云平台上,可以避免因单一平台故障而导致的全面瘫痪。

最后,我们需要认识到网络安全是一个持续的过程而非一劳永逸的解决方案。因此,我们需要定期检查和评估自己的网络安全状况,及时调整和优化安全策略和技术手段以应对不断变化的威胁环境。只有这样我们才能确保自己的业务和数据安全无虞。