当前位置: 首页 > 业界动态 > 行业热点 > 本文


Amazon云服务发生故障




发布时间: 2012-6-20 9:45:45  

    上周四即6月14日,Amazon位于美国东部的数据中心出现故障,并影响了AWS多项云服务以及基于之上的Heroku、Quora等知名网站。16日,Amaozn公布了事故分析。事故是由公共电网故障引起,并引发了一系列连锁故障。:

 

Amazon云服务

 

    事情的起因是电缆故障影响了高压配电系统。

    6月14日20:44左右,一电缆发生故障,进而影响了高压配电系统。2个为可用区域提供电力的公用变电站出现故障,进而使得整个供应区供电不足。但这个情况是可以处理的,亚马逊启动了备用发电机,保证了所有的EC2实例和EBS存储成功转移。

    然而,20:53,1个备用发电机因其风扇过热造成了超负荷运转而断电。所以采用备用发电机(由一个完全独立的配电电路完成额外发电能力)的方案也宣告失败。更不幸的是,在这套特定的后备电源分配电路中,一个断路器被错误配置为在低功率阈值时打开,这样,当负载转移到该电路时,错误发生了,该断路器断路了。

    20:57,当该电路断路器断开时,实例和存储失去了主要备份电力或二次后备电源。受此影响客户的实例和卷是运行在多个可用区域的,只能在此环境中等到电力恢复才能正常运行。

    15日10:19,发电机风扇被替换并安装好,发电机开始提供动力。电力逐步恢复后,受影响的实例和存储也开始恢复。

    10:50,绝大多数实例已经恢复正常。但对于EBS存储(含启动块)而言,电力不足之时写入会有数据损失,也就是这些存储可能存在不一致的状况。这并非是潜在的不一致,因为即使是存储上I/O停顿,EBS也会在线直接反馈出受损状态。用户只能通过验证存储上的一致性来恢复它。

    最后,16日1:05,超过99%受影响的存储才得以解决。

    总的来看,EBS-related EC2 API的损失集中在20:57-22:40。具体来看,这段时间内,可变系统调用(如创建,删除)失败,进而直接影响到客户发布新的EBS-backed EC2实例。EC2和EBS APIs实施在多个可用复制数据存储区。EBS数据存储被用来存储元数据等资源的卷快照。一个主要的EBS数据存储因为这个时间失去了动力,使得系统无法将数据存储的副本放到另外一个可用区。一般来看,为了保护数据存储,系统会自动翻转为只读模式,直到电力恢复可以启动可用区,进而尽快恢复到一致状态,并返回到数据存储读写模式,使得启用可变EBS调用成功。但这个事件中,这一保护方案没有起到作用。

    本文来源:CSDN

阅读:1085次
推荐阅读:

版权所有 © 2011-2016 南京云创大数据科技股份有限公司(股票代码:835305), 保留一切权利。(苏ICP备11060547号-1)  
云创大数据-领先的云存储、大数据、云计算产品供应商