微软称,澳大利亚数据中心宕机是因为人手不足和自动化失败
微软称,澳大利亚数据中心宕机是因为人手不足和自动化失败
作者:开源爱好者
来源:
8月30日微软的澳大利亚数据中心发生宕机,导致与Azure的API、数据库和应用程序等服务停机。 微软将这一故障归咎于员工能力不足和自动化失败,这次宕机导致用户无法访问Azure、Microsoft 365和Power Platform服务超过24小时。 在一份事后分析报告中,微软表示,停电是由于澳大利亚东部地区的公用事业停电,使一个可用区内一个数据中心的部分冷却装置脱机。由于冷却装置不能正常工作,温度的升高迫使数据中心自动关闭,以保障数据和基础设施的安全,从而影响到计算、网络和存储服务。 微软在报告中写道,冷却装置本可以手动重启,但由于数据中心没有足够的人员而未能及时修复。“由于数据中心园区的规模,夜间团队人员不足,无法及时重启冷却器。我们已临时将团队规模由3人增加到7人,直到我们更好地了解潜在问题,并采取适当的缓解措施”。 事实上在过去的几个月里,微软曾报告过几次服务中断事件,尤其是M365服务的中断故障。这些事件包括:
微软表示,公司正在进行重大改革,例如改进现有的数据中心自动化,以提高事故发生时的服务恢复能力。 “我们正在探索改进现有自动化的方法,以更有效地应对各种电压下降类事件。”微软还补充说,公司正在进行评估,以确保负载最高的服务器及其相应的冷却器优先重新启动。由此可见,微软也正在尽力改进,努力为用户提供稳定优质的服务! |