阿里云“崩”上热搜，重大故障背后的导火索是什么？

日期：11-14

来源：IT时报

“淘宝崩了”“钉钉崩了”“闲鱼崩了”……11月12日晚间，阿里云因多款应用发生故障登上热搜榜，话题引发众多网友讨论，知乎、小红书、脉脉等平台关于“阿里云崩了”的话题也层出不穷。此前，阿里云也出过多次故障，但此次影响范围之广，实属罕见。

阿里云“崩”上热搜，重大故障背后的导火索是什么？

阿里云实时“官宣”处理进度：11月12日18：14，阿里云发布公告称，自17：44起，阿里云云产品控制台访问及API调用出现异常，工程师正在紧急介入排查；17：50，阿里云确认故障原因：与某个底层服务组件有关；18：54，公告显示杭州、北京等地域的控制台及API服务已恢复；19：20，公告称工程师通过分批重启组件服务，绝大多数地域控制台及API服务已恢复；21：11，公告显示受影响云产品均已恢复。

这并非阿里云的第一次事故，2018年6月，阿里云被曝出持续近半小时的重大技术故障；2019年3月，疑似出现宕机事故，给部分互联网公司造成影响；2022年12月，香港Region可用区C发生大规模服务中断事件，对较多客户的业务带来重大影响，影响面扩大到香港可用区C的EBS、OSS、RDS等云服务……6年内发生多次不同程度的故障，不禁让人心生疑虑：阿里云还值得信赖吗？

底层服务组件故障

“牵一发而动全身”

从事发当日的首个回应公告至当晚发布的“云产品均已恢复”结果，整起事故耗时3个小时，地域范围波及甚广，国内如华南1（深圳）、西南1（成都）、华南3（广州）、华东1（杭州）、华北5（呼和浩特）等，海外如印度（孟买）、英国（伦敦）、美国（硅谷）、韩国（首尔）等。

昕荣（化名）所在的公司用了阿里云的服务，她告诉《IT时报》记者，公司相关业务的运转受到了较大影响，研发的同事“被迫”在周日加班数个小时。“我看这次主要是阿里云的AK鉴权发生异常，从而影响到了OSS和MQ这两个组件。其他公司很多服务都是用阿里云的这两个组件，所以当它们受损时，便会受到牵连。”昕荣说道。

底层服务组件在中台发挥关键的作用。业内专家王淇（化名）告诉《IT时报》记者，阿里云自身使用的是一个大中台的技术架构，中台具有高度复杂性和集约性，当底层出现错误，要完成灾备切换恢复具有较高的难度。“相当于‘大脑’瘫痪了。”王淇表示，尽管当前这个故障已恢复完毕，但倘若处理不周或不防患于未然，随时会再次面临“瘫痪”。

而中台出现故障不仅会发生在阿里云身上，在王淇看来，任何一家具有云计算服务企业都会存在故障风险。

阿里云“崩”上热搜，重大故障背后的导火索是什么？

裁员、管理或成“导火索”？

《IT时报》此前报道，今年5月，关于阿里裁员的消息在微博、脉脉等各大社交媒体上引发热议，裁员风波涉及淘天集团、菜鸟、本地生活、云智能集团、大文娱等板块。其中，作为阿里六大业务之一的阿里云智能，被曝裁员比例约7%，彼时，阿里云方面回应表示，这是公司进行的正常组织岗位和人员优化。

阿里云智能人士对媒体表示：“每年公司会进行正常的组织岗位和人员优化。此次人员调整的时间为5月份，是在4月底发放完年终奖后启动的，整体优化比例约7%，补偿标准为N+1+1，未休的年假、陪伴假等均可折现。”

据阿里巴巴第二季度的业绩报告，截至今年6月底，阿里巴巴的员工人数较之于3月份的235216人少了6541人，仅2023年上半年，阿里巴巴便裁员11065人。阿里巴巴集团官微此前回应，2023年六大业务集团总计需新招15000人，其中校招超过3000人。

外界普遍认为，裁员，特别是高级技术人员的缺失，或是阿里云这次大规模故障引发的主要原因。王淇也表示，维护一个复杂的中台需要大量专业的开发和运营人员，而阿里云今年的裁员对此或多或少产生了影响，另外，管理亦是因素之一。

独立分析师付亮也表示，今年阿里巴巴管理模式的大调整可能带来新的管理隐患。“从管理层面，阿里全面推进各业务集团及下属公司独立，各实体之间‘公司化协议运作’，各业务集团及具备条件的公司独立盈亏，结果必然是各业务集团和公司加强了盈利项目，压缩了非盈利项目，跨业务集团的支撑很难避免不受到盈利目标的影响。”

“阿里云内部精力从‘云’向仍处于投入期的AI大模型转移。”付亮说道。

就在本月初举行的云栖大会上，阿里云发布机器人大模型解决方案，宣称集成了通义千问、通义万相等基础模型及阿里云物联网平台，赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D目标检测和动态环境理解等全方位能力，可大幅降低机器人开发的门槛。付亮认为，阿里云高管的调整、业务团队的变动，以及精力的转移增加了不确定性，业务稳定性亦在降低。“利润考核逐步下压，降低成本，以增加利润，但减少了资源配置，这是阿里云业务支撑出现隐患的重要原因。”