CrowdStrike 事件提醒CIO要重新评估云战略

企业CIO们正在寻找避免单点故障的方法,并重新评估其云战略,以防止任何“蓝屏”事件的再次发生。
2024-07-25 13:37:04  |   作者:开源爱好者  |   来源:

CrowdStrike 事件提醒CIO要重新评估云战略

企业CIO们正在寻找避免单点故障的方法,并重新评估其云战略,以防止任何“蓝屏”事件的再次发生。
2024-07-25 13:37:04
作者:开源爱好者
来源:

最近由CrowdStrike软件故障引发的全球Windows系统大范围死机,给社会经济活动带来了巨大冲击。对于首席信息官(CIO)来说,这一事件再次敲响了警钟,提醒他们过度依赖单一供应商(尤其是在云领域)所带来的潜在风险。

图片5.jpg

此次事件中,IT系统崩溃并出现臭名昭著的“蓝屏”,暴露了高度依赖云基础设施的脆弱性。虽然问题正在解决中,但它已经凸显出关键安全组件失效时可能带来的灾难性后果。这迫使CIO们质疑其云环境的韧性,并探索替代策略。

重新评估云依赖

印度有线电视提供商DishTV的CIO表示:“当如此大规模的问题发生并导致如此大的中断,重新审视你现有的信念、决策和权衡以形成当前架构的做法是重要且必要的。审查的结果可能仍然是相同的决定,但进行审查是必要的。”他补充道。

金融服务公司Shree Financials的CIO建议进行战略调整。“组织和首席信息安全官(CISO)必须审查他们的云战略,并应阻止补丁的自动更新。所有补丁都应首先在测试服务器上进行测试。”

他进一步强调,尽管CrowdStrike享有盛誉,但此次事件却揭示了由于未经验证的补丁导致的更新失败及其连锁反应。

总部位于荷兰的TMF集团网络安全、身份和访问管理(IAM)以及应用安全部门主管补充说,采用多元化的云战略方法可以减轻此类风险。“是的,他们(企业)应该重新审视云战略。它必须是所有可用解决方案的混合体。”

少数组织已经开始采取大胆的行动。

“为了应对最近影响我们关键运营的中断,我们已主动更新业务连续性计划,以应对意外停机并最大限度地减少对生产力和服务交付的影响,”Mytek Innovations公司的创始人兼首席管理董事说,该公司是此次Windows系统蓝屏事件的受害者之一。“我们修订后的计划包括加强沟通管理,设置多个层级,以确保所有员工都能充分了解潜在问题及其解决方案。”

由于该公司的整个网络(包括Outlook、Teams和SharePoint)都托管在Microsoft 365上,因此其内部沟通受到了严重影响。

“然而,我们公司自主开发的应用程序并未受到影响,因为GoDaddy使用的是自己的托管基础设施,”他说。“我们确实遇到了一些与Azure平台相关的API集成问题,这些问题导致整个平台在一天内都无法正常工作。这次中断导致我们向客户和用户提供的服务中断。”

对CIO的警示

CIO的一个主要担忧是供应商锁定。正如CrowdStrike事件所揭示的,依赖单一云提供商会创建一个单点故障。如果该提供商的关键服务中断,可能会对一个组织产生深远的影响。为了减轻这种风险,CIO们需要探索多云或混合云架构,将工作负载分布在多个平台上。

Forrester公司的高级分析师强调了在面对网络威胁时,可靠的工具和服务的重要性。

“在面临网络攻击时,网络安全团队所使用的工具和服务的可靠性至关重要,像这样的事件对这种可靠性提出了质疑。这无疑会引起高管们对企业系统可靠性的疑问和担忧,尤其是当网络安全软件已经像日常运营一样融入技术中时。”

该事件暴露了依赖云的系统的脆弱性,一个单点故障可能会在整个组织中产生连锁反应。Beagle Security公司的高级安全专家和顾问指出,“云和安全供应商之间的信任现在受到了质疑。这种信任破裂很可能促使人们更加重视无代理解决方案,这种解决方案可以在不带来传统代理相关漏洞的情况下提供增强的安全性。”

考虑到其影响之大,这被认为是网络安全领域最严重的事件之一。CrowdStrike事件影响了包括航空公司、银行、零售商、经纪公司、媒体公司和铁路在内的各个行业中使用Microsoft Windows的计算机。旅游行业受到显著影响,德国、法国、荷兰、英国、美国、澳大利亚、中国、日本、印度、新加坡和台湾地区的航空公司和机场在值机和票务系统方面面临重大问题,导致航班延误和机场混乱。

微软表示,约有850万台Windows计算机受到影响。

影响如此之大,以至于SpaceX和特斯拉的首席执行官埃隆·马斯克不得不将所有系统中的CrowdStrike软件删除。

加强风险管理

这一事件凸显了改进风险管理实践和有效业务连续性的必要性。现在,加强尽职调查、严格测试更新以及分阶段推出至关重要。

“这一事件敲响了警钟,强调整个行业需要持续适应和改进网络安全实践,”RAH Infotech的CIO表示。

乐天交响乐公司的资深架构师提出要落地在全面发布之前通过选定的用户测试更新的机制:“它应该有一个机制,在将更新发布给整个社区和用户群之前,先在一组用户和某些组织进行测试,以减少影响。”

随着数字环境的不断发展,确保基于云的系统具有韧性至关重要。An Idea Global Innovations的创始人指出:“该事件对全球经济产生了更广泛的影响;更长的停机时间和恢复时间将影响生产力和经济。”

行业专家为未来做好准备提出了几项策略,包括分阶段推出、全面测试和强大的备份系统。

区块链公司Qila的联合创始人建议,分阶段部署和彻底测试更新可能会减轻影响:“如果CrowdStrike以分阶段的方式部署更新,那么影响将会小得多。”

Nuvepro的CIO表示,旨在防止类似CrowdStrike更新事件的企业应通过加强不同环境的测试协议、实施严格的风险评估以及用强大的治理框架来强化变更管理流程,来加强其更新管理。“加强监控能力、完善针对更新失败的定制事件响应计划,以及促进与供应商的主动关系至关重要。”

CrowdStrike事件强调了CIO需要重新审视和加强其云策略的必要性。通过实施强大的风险管理实践、加强安全措施和多样化云解决方案,组织可以更好地保护自己免受未来中断的影响。

随着行业努力应对这一事件的影响,重点必须转向构建有弹性、可适应且经过充分测试的云策略,以应对日益复杂的数字环境。