微软称,澳大利亚数据中心宕机是因为人手不足和自动化失败

8月30日微软的澳大利亚数据中心发生宕机,导致与Azure的API、数据库和应用程序等服务停机。
2023-09-06 06:42:50  |   作者:开源爱好者  |   来源:

微软称,澳大利亚数据中心宕机是因为人手不足和自动化失败

8月30日微软的澳大利亚数据中心发生宕机,导致与Azure的API、数据库和应用程序等服务停机。
2023-09-06 06:42:50
作者:开源爱好者
来源:

8月30日微软的澳大利亚数据中心发生宕机,导致与Azure的API、数据库和应用程序等服务停机。

 20230906-1.jpg

微软将这一故障归咎于员工能力不足和自动化失败,这次宕机导致用户无法访问Azure、Microsoft 365和Power Platform服务超过24小时。

在一份事后分析报告中,微软表示,停电是由于澳大利亚东部地区的公用事业停电,使一个可用区内一个数据中心的部分冷却装置脱机。由于冷却装置不能正常工作,温度的升高迫使数据中心自动关闭,以保障数据和基础设施的安全,从而影响到计算、网络和存储服务。

微软在报告中写道,冷却装置本可以手动重启,但由于数据中心没有足够的人员而未能及时修复。“由于数据中心园区的规模,夜间团队人员不足,无法及时重启冷却器。我们已临时将团队规模由3人增加到7人,直到我们更好地了解潜在问题,并采取适当的缓解措施”。

事实上在过去的几个月里,微软曾报告过几次服务中断事件,尤其是M365服务的中断故障。这些事件包括:

  • 今年7月,微软的OneDrive for Business和SharePoint Online服务中断。

  • 今年6月,用户在使用Outlook Web、Teams、OneDrive for Business和SharePoint时遇到了超过8个小时的故障。

  • 今年5月,英国用户在访问微软365的一些服务产品时遇到了问题。

  • 今年4月,某些用户无法在多个微软365服务中使用搜索功能。受影响的服务包括Outlook on Web、Exchange Online、SharePoint Online、Microsoft Teams和Outlook桌面客户端。

  • 在4月份的另一起事件中,用户无法访问Microsoft 365 web应用程序和Teams。

  • 今年2月,微软也遭遇了一次全球宕机,用户再次无法访问电子邮件和Teams。

  • 在1月份也遭遇了类似的故障。

微软表示,公司正在进行重大改革,例如改进现有的数据中心自动化,以提高事故发生时的服务恢复能力。

“我们正在探索改进现有自动化的方法,以更有效地应对各种电压下降类事件。”微软还补充说,公司正在进行评估,以确保负载最高的服务器及其相应的冷却器优先重新启动。由此可见,微软也正在尽力改进,努力为用户提供稳定优质的服务!