首页 云计算 正文
  • 本文约787字,阅读需4分钟
  • 1345
  • 0

微软澳大利亚数据中心人手不足致部分服务器宕机

摘要

2023年08月30日08:41 UTC 左右,微软 Azure 澳大利亚数据中心园区发生一起大规模故障,导致部分服务器宕机。

2023年08月30日08:41 UTC 左右,微软 Azure 澳大利亚数据中心园区发生一起大规模故障,导致部分服务器宕机。

据悉,当时数据中心的电力供应能力下降,导致七个冷却设备断电,当时只有两个备用冷水机组处于正常运转状态。

由于夜班仅有三名工作人员,出现因人手不足无法及时重启冷水机组局面,随着温度上升和热警告只能关闭服务器。

根据微软调查结果和事件时间线,可以发现该数据中心拥有七个冷却设备,其中五个维持日常运行,两个备用状态。

而当时因为人手不足,使得发生故障的冷却设备无法手动重启,导致部分存储硬件被烧毁,影响七家大型企业客户。

微软在调查描述中这样写到:他们都相当尽责地 “执行了记录在案的应急操作程序 (EOP),但最终没取得有成功”。

受此影响七家客户分级如下:五家为“标准”级别,两家为“高级”级别大型客户,包括澳大利亚昆士兰银行和捷星航空。

微软官方对于此次故障调查结果显示,装载有企业客户存储内容的硬件“因数据大厅温度过高而损坏”。

除企业客户重大损失外,该数据中心托管的 25 万多个 SQL 数据库也发生故障,目前相关数据恢复工作已大致完成。

微软澳大利亚数据中心人手不足致部分服务器宕机

图源 azure.status.microsoft

目前,微软已做出调整将夜班工作人员人数从三人增加到七人,并将探索改善现有自动化的方法应对电压骤降事件。

除此之外,微软还将调整相关应急预案和日常工作流程,降低此类事件再次发生的可能性。

到这里,笔者再度梳理了一下微软官方发布的此次事件相关的时间线,真的不得不感慨人家的办事效率真心是高啊。

笔者之前个人和工作上都遇到过很多次的数据丢失的问题,就算有备份恢复起来也相当的难,需要大量时间和精力。

另外笔者也颇为好奇微软此次发生故障导致七家客户受到影响,其中甚至包括两家高级客户,不知道会有多少补偿。

笔者至今还在使用的河南某上市公司的机器,此前还有故障赔偿,后续可能赔偿比较多,现在已经没有任何赔偿了。

标签:微软公司
评论
更换验证码
友情链接