因光缆被切出故障 AWS中国近12小时大面积瘫痪

日期：06-03

原标题：又一云厂商因光缆被切出故障，AWS中国近12小时大面积瘫痪

来莎莎赵陈婷

从凌晨2点到下午1点48分，亚马逊旗下云服务商AWS中国区熬过了漫长的11小时48分。

作为AWS中国区的员工，方远（化名）一早被电话吵醒。一家创业公司的客户过来抱怨自家APP连不上服务器了。

事情比方远想象的严重。挂完电话，方远才发现公司的大小微信群已经炸了锅。

按照AWS中国的官方声明，因为隔夜道路施工中有几处光缆被切断，导致可用区无法链接Internet，使得AWS中国业务大规模出现故障。

因光缆被切出故障 AWS中国近12小时大面积瘫痪

包括方远在内的员工们也很懵，几处光缆被切断怎么会影响整个北京区域的这么多服务？

但这一事故的影响已经在不断发酵，包括VIPKID、流利说、三星应用商店等多个用户都均受到不同程度的影响。亚马逊中国官网（www.amazon.cn）的页面也一度崩溃。

因为正逢6·18大促，流利说的助教张丰（化名）正忙着推广自家的促销信息。这边张丰刚向学员介绍完自家的课程计划，就在微信上被学员告知流利说APP的定制课程已经根本打不开。很快，张丰接到公司紧急通知，是因为公司的云计算服务商AWS出现故障。

接下来，张丰的工作重点不得不变成安抚各路学员。直到下午1点多，张丰终于开始群发消息，通知学员们APP“服务”已经逐步恢复中。

类似的尴尬在VIPKID的各个家长群同时上演。

有客户在微信上评论道：“这是我从业以来经历最长的一次故障修复时间，AWS这次事故处理的时间效率太低了，我表示很失望。”

为了保障服务不中断、数据不丢失，一般业务系统、数据都有多个备份。而在云计算中，为了保障数据中心内业务系统的可用性，数据中心基础设施也会采取类似的冗余备份，提高系统可用性。

有业内人士认为，此次AWS光缆被切断导致近12小时大面积服务瘫痪是因为没有做好网络冗余设计。

网络冗余设计主要通过重复设置网络链路和网络设备冗余措施。网络链路冗余是指为确保业务正常运转，除配置主线路外，同时做好第二种、第三种线路的部署。

主备线路隔的位置比较远，因此，一旦主线路出现故障，还有其他线路保证网络的可用性。例如，接入互联网时，同时采用不同电信运营商线路，相互备份且互不影响，但这样一来，成本也会增大。

据悉，AWS北京区域使用的是光环新网的数据中心，记者多次致电光环新网客服电话，均无法接通。据光环新网官网显示，该公司在北京拥有酒仙桥、太和桥、光环新谷、东直门、房山和亦庄6个数据中心，每个都拥有高达100G的BGP总出口带宽，多运营商通信链路。

“本来一个机房，各家运营商链路应该有自己的连通方式。但是也有可能机房在施工时先汇总各家运营商到一条主干线，到某一节点之后再分开。但冗余是有成本的，不是所有场景所有环节都冗余的。对于云厂商来说，网络线路都是租运营商的，都是钱啊。”上述业内人士指出。

因为光缆被切断导致服务瘫痪的并不少见。2015年，因为当地市政建设施工方挖断了光缆，支付宝PC网页和手机客户端都出现无法登录、网络异常等现象。后来，支付宝改成了冗余设计。

2018年9月云栖大会上，蚂蚁金服发布了“三地五中心金融级高可用方案”，并现场演示了“剪网线”，经过26秒容灾切换完成，恢复业务。

而在2018年7月，因腾讯云广州一区的主备两条运营商网络链路同时中断，腾讯云广州区域部分用户出现资源访问失败、控制台登录异常等情况。

2019年3月，腾讯旗下多项服务出现服务器未响应问题。随后，腾讯云发布公告称，因上海南汇网络光纤因施工被意外挖断，导致该区不少互联网公司的业务受到不同程度的影响。

由于有备用链路，腾讯云随即启动流量智能调度系统，将上海地区公网流量通过腾讯云内部T级骨干网，引导至腾讯云广州区电信出口，再由电信骨干网直达浙江电信。此次光纤故障从发现到恢复只有两分钟，并且所有流程自动化执行，在150秒之内就快速恢复了网络。

不过，即使有冗余备份，对于业务也并非毫无影响，“备用链路一般会慢一些，而且大家都拥到小路上，自然就挤了，体验上就是慢。”一云服务商告诉记者。

此前，UCloud创始人兼CEO季昕华表示“云计算公司有四大谎言，分别是云计算先服务于内部客户，再服务于外部客户；云计算能保证100%的安全；云计算消耗大量资金；云计算是不盈利的。”

“云计算虽然比本地研发更安全，但不可能是100%。就算微软、亚马逊、谷歌、阿里、腾讯一样都会出问题。所以用户更愿意使用多家云来服务，多云战略是未来的重要方向。”他指出。

也有厂商呼吁，随着云计算和数据中心越来越重要，光缆、管道等基础设施的保护也需要跟上，现在破坏的成本太低了。

我为群众办实事丨“小”路灯点亮“大”民生