巨头的云计算前传:躲在正史身后的“跌宕起伏”和“不可理喻”

日期:05-16
云计算阿里云京东

巨头的云计算前传:躲在正史身后的“跌宕起伏”和“不可理喻”

作者/周蕾

编辑/王亚峰

互联网巨头的云计算发展史,已被撰写千遍。

但正史的开场,总会被人为修饰,精彩有余,却只保留了全盘上的合理,未展露其局部的不合情之处。

云的诞生,自然也不全是官方语境中的“业务增长,倒逼技术升级”而来。

毕竟决策因人而起,而人不可能永远理性。

真正起到决定性作用的那一刻,拍板的那一瞬间,需要企业决策者们足够头脑发热,带着感性、冲动和不合理,签署下这几笔改变公司战略发展方向的文字。

而云计算的前传,正是由这份感性背后,或是跌宕起伏、或是无心插柳、亦或是不可理喻的故事组成。

网卡冒烟的淘宝与阿里云

谈云计算历史,多半从阿里讲起。人们所熟知的是,2006~2009年之间,亚马逊的AWS初长成,马云与曾鸣的云计算论道,王坚的加盟,阿里云登上历史舞台。

但做云计算这一步棋,并不全是阿里的主动为之、提前规划。

时间回到2006-2008年初,立项不久的淘宝商城(天猫前身),在公司内部还处于一种“放养模式”——没资源、没人管,员工们只觉得本部门不太受待见,根本想象不到自己2008年要经历怎样的“地狱模式”。

其实在2007年,淘宝业务便突然开始爆发,到了2008年已经是核爆级别的增长,旧的IT体系已经被逼到崩溃边缘。据说当时早上八点到九点半之间,时常会出现服务器的处理器使用率,飙升到 98%的情况,离爆棚就差两个百分点。

这个时间段“浑身是伤”的淘宝,让一批顶尖技术人才迅速成长起来,例如阿里程序员大牛林昊(毕玄)等人。

多位同时期的淘宝商城技术元老,向雷峰网生动地描绘了当年那些“惨烈”的画面:

“淘宝在当时是颇为先锋的业务形态,市面上的技术组件,性能和容量都配不上淘宝。最恐怖的时候是大促,流量洪峰一来,机房里的机器全体宕掉,千兆的网卡‘啪’一下就冒烟。立马换上一批新网卡,‘啪’一下,又冒烟阵亡了。”

为什么当时的淘宝这么“脆”?在旧的架构里,一切逻辑和流程都非常简单:业务需求一来就做个系统支撑上线,从没考虑过什么架构、平台、冗余。到了新架构出现,平台整体才得以显现,后来广为人知的中台概念也才在这一阶段慢慢沉淀下来。新一代体系直到2013年才真正稳定下来,一路“修修补补”沿用至今。

淘宝是发展最快、问题最多的一个,但出问题的不止淘宝一个,承担交易结算功能的支付宝、阿里内部的财务系统也连带着一块“遭殃”。“早期这里头的账,就没平过几次”,一位前淘宝员工回忆道。

加上当时也处在淘宝技术架构体系2.0向3.0演进的阶段,可以说,整个阿里的技术层面都巨大承压,堪称阿里诞生以来最大的一场技术“生死劫”。

“每天从睁眼到闭眼,就是不停地修改,不停地救火。工作刚梳理清楚头绪,情况又变了,一切得从头再梳理一遍。凌晨一两点下班是常态,感觉把一辈子的班都加完了。”该技术元老直言,这是他职业生涯最有成就感同时也最痛苦的一段回忆,项目做到一半,不少同事的情绪已经快要抑郁了,感觉像是在过一条摇摇欲坠的桥,每天背的货物还越来越重。

毫不夸张地说,这轮“劫数”的出现,才是阿里入局云计算的真正开始。

此后,便是轰轰烈烈的阿里“去IOE”进程,云计算系统“飞天”雏形诞生,“云梯计划”聚集团上下之力顺利实现,一系列励志故事在阿里云上演。

王坚

王坚

2009年,阿里云顺利度过了大版本升级,飞天系统稳定性表现尚可,但在2010~2012年间,阿里云陷入了停滞,整个部门连续三年在集团内部拿最低分。最广为人知的一幕是,王坚泪洒年会现场,说:“这两年我挨的骂甚至比我一辈子挨的骂还多。但是,我不后悔。”

这一表象之下,是稚嫩的阿里云在产品化和商业化上的隐忧。

很多人都认同,阿里云有一群技术“疯子”,这其实不只意味着他们在技术上有着极高的热情和造诣,同时也意味着,他们可能不太精通技术之外的事情。

一位与王坚打过交道的天猫前技术专家点评,那个时候的阿里云并非技术能力不行,而是产品化和商业化不行,甚至可以用一塌糊涂四个字来形容,少了一条和业务部门“共情”的脑筋。

这群P9、P10级别的云技术专家们,会随时打磨自己的系统。从纯技术角度来说,精益求精,有问题就早发现早解决,这总是没错的——但对业务部门来说,这种没有事先打过招呼的“随时打磨”,简直是灾难级别的。

“比如他们会突然上机房,改动两个参数看看效果,但商家那边直接就崩溃两个小时,这已经达到了P0级别事故的标准。如果是在管理严格的部门里,早就剥夺股权、让专家们收拾包袱回家了。”这位专家哭笑不得地说。

进一步对标AWS就会发现,阿里云的产品,从细节到应用再到商业合作漏洞不少,从管理流程上就显得颇为粗糙,后来阿里云花了一两年的时间与其他部门共同打磨修改,才形成了今天的产品化水平。

2012年“聚石塔”的上线应用,就是一次典型的阿里云与业务部门携手共进的成长经历,某种程度上也可视作阿里云迈向成熟、迈向商业化的里程碑。

早期,大中型商家拥有自己的业务流程模式与IT系统,因此不愿寄人篱下按照淘宝的后台要求来做商品销售和管理。这个时候淘宝需要做一个面向大B端的平台,把大中型商家接进来,形成协同关系。

但这一平台的首个版本,并不受商家们的认可,被评价为“很技术化,但不懂商业”。

为了抓准商家的痛点,据说团队把当时杭州的所有腰部以上规模的商家,全部拜访了一遍。在这个过程中,商家真正的需求才浮出水面:业务发展很快,但IT水平跟不上。

于是,无心插柳下,这一套为商家IT系统和数据做云托管服务的平台就此诞生,也就是后来的“聚石塔”。

简单来说,商家只要集中精力做业务,不必耗时处理IT问题,大流量时的IT资源和系统稳定性、订单履行速度等一系列问题,由聚石塔兜底处理。

过程中需要不少云端资源,淘宝商城顺理成章地将阿里云拉进这一项目中。

“如果当时没有淘宝商城/天猫的帮忙打磨、场景落地,阿里云不一定有今时今日的地位。”一位前阿里老员工如是说。

据统计,2012年的双十一,就有近七成的天猫订单顺利用上聚石塔。这是一个在集团内部评价颇高的项目,为阿里解决了不少老问题,像是此前很难拿到的各行业供应链数据,终于可以沉淀在聚石塔上。这样一个项目,后来也由王坚接手,阿里云的成长表现可见一斑。

在陆续渡过技术和业务的“生死劫”之后,阿里云在王坚的带领,以及淘宝的助攻下,逐渐稳步踏上正轨,成为中国云计算的排头兵。

2015年的盛夏,云栖大会北京峰会开幕,阿里云的全新班底首度亮相。王坚将阿里云的重担,缓缓交给了胡晓明,中国云计算最风起云涌的一个时代也就此拉开了序幕。

觊觎Dropbox的刘强东与京东云

如果说阿里云是诞生于业务的洪流之中,那京东云则是生于刘强东的一念之间。

前文所讲的聚石塔,起步于2011年末。巧合的是,京东与云的渊源,也要从2011年说起。

官方版本里,京东云元年是2016年。的确,这是一场气势昂扬的开局:2016~2017这一年之内,公有云业务正式上线,申元庆顺利加盟;刘强东更是发表了一场澎湃激昂的演讲,振臂喊出“技术!技术!技术!”的口号。

但事实上,据一位京东前高管向雷峰网回忆,刘强东之所以起了做云念头,最直接原因,是2011年,刘强东看到福布斯杂志在10月公布了一个业务数据——2007年创办的云盘厂商Dropbox在全球已经有了5000万用户,估值非常之高。

Dropbox何许人也?在坊间的传闻中,苹果甚至为其开出过9位数的收购报价。它当年的成长,称得上是火箭速度:在2008年的春天之前,市面上其实还没有太多关于它的消息,直到红杉的多轮加注,它才飞速走红,成立五年内就达到了用户数破亿的“小目标”,引无数人眼红。

“我们做电商这么多年还不赚钱,这个网盘业务又受欢迎、增长又快,我们试试好不好”,据说这是刘强东当时对身边人的真实表达。

京东云的雏形由此而来。“京东云在内部最早的定位,就是网盘。相关的文件管理系统,京东到现在都还在用。”该前高管向雷峰网证实了这一点。

何刚来到京东,最开始的出发点也是做个人云盘,这才是京东云的真正起点。至于后来的一些说法,比如说京东云的出发点是整合京东的IT资源等等,都是略有修饰的版本。

在2012年,中国能独立主持做云计算的人不多,何刚作为当时盛大创新院云计算业务负责人之一,被刘强东力邀来了京东。该项目的另外两位负责人是季昕华和许式伟,各自创办了UCloud和七牛云。

何刚

何刚

值得一提的是,刘强东相中何刚,与他曾经的亚马逊云计算项目负责人身份不无关系。众所周知,刘强东从不掩饰自己对亚马逊的推崇,在多次京东SEC(战略执行委员会)的会议上,刘强东都会对比,亚马逊有什么,阿里有什么,我们没有什么。

做云盘对何刚来说,并不是难事,但由于京东当时整体的技术储备较低,在技术投资上的资金很有限,市场上也找不到足够多的技术人员,种种原因导致早期的京东云盘的体验很差,至少和当时主流的产品有差距。

最早京东云盘甚至不好意思开放给C端用户,除了内部使用,也提供给当时京东平台上的第三方商家(内部称为Pop商家)试用,供他们存储一些销售物料如海报、视频所用。

不过,对那时的大量传统企业和商家而言,信息化的进程尚未起步,IT能力约等于无,企业经营管理甚至还停留在用Excel的水平。京东云盘先面向Pop商家开放,支持他们顺利在京东上开张,也算是顺理成章。

水平不够,收购来凑,也是常有的事。

据说京东曾经动过收购360网盘的念头,以强大其云盘业务的发展。但周鸿祎为360网盘投入的不过二十来亿,却开出了超过50亿的天价,远远超出京东的预想,收购只得作罢。

另一个夭折的意向收购项目是IDC企业光环新网,一位接近项目的内部人士不无遗憾地回忆,在当时的投委会讨论上,京东首席战略官廖建文直接否决了这项收购。

当然,云盘只是起点。京东究竟是什么时候,才考虑从“京东云盘”真正升维到“京东云”层面,考虑把云计算作为支撑京东整个技术体系的支柱——这个重要的时间分水岭在哪里?

这个时间点,最早或许可以追溯到2014年。

在2014年的一次对外宣讲中,何刚给出了十分清晰的京东云化思路。不难看出,至少在当时何刚已经完整设计了私有云、公有云和云生态的“三步走方针”。

正如《截杀阿里腾讯的“云”巨头们:密谋合并、艰难蜕变》一文所写,何刚本人也是不愿意把自己局限在云盘这项“小”业务,而是想将云切换到京东主流的技术支撑体系内。

从另一个视角来说,刘强东也倾向于把这个重担落到了何刚的肩头。

作为一家没有先天强技术基因的企业,京东长期以来技术上的人才素质和预算都欠缺。许多时候为了应对大促,技术团队采取了大量的、无法撤销的临时性补救措施,无法从根本上铲除病灶,技术架构问题丛生。

京东的IT底子有多差?有一个小故事可以分享:京东早在2012年就试图上市,投行时不时需要他们提供最新的各类经营数据,而京东的IT系统每次至少得花一周时间才能把数据跑出来。滞后的IT能力,也成为当时上市夭折的原因之一。

然而,尽管上云确是刚需,尽管云化路线清晰,但在以“京东云”名义出发后的数年时间内,何刚面临的压力不小,其处境之艰难,我们也在《截杀》一文中给出了详细解析。总的来说,从多方讲述的细节来看,刘强东给予何刚的信任,与他赋予何刚的重担,远远不匹配。

“投入少,方向又天天变,非常折腾。他的部门存在感很低,往往是挨骂的时候才会被看到,他在推进改革的过程中,没少受委屈。有时候老刘批评他的声音,站在门外都听得一清二楚。”某位前高管透露。

直到2016年,何刚入职京东的第五年,从诞生之初就坎坷不断的京东云总算初具体系,能进入到市场角逐的程度了。

更重要的是,上市后的京东有了更充足的资金和人才发展云计算;刘强东也希冀以云计算业务,给京东添上更多“科技公司”的光环,让市销率再翻几番。这才有了本章节开头的那一幕:公有云服务在这一年的4月正式上线,京东云终于开始发力了。

但一个迫在眉睫的问题也随之摆上台面:作为后来者,京东云能不能另辟蹊径?

要知道公有云市场离不开“云的四大件”(服务器、存储、带宽、CDN)的消耗,当时的京东技术战略部门也认为,必须找到一个“主力集火点”,保证京东云能顺利输出“四大件”。

给出的第一条路子,是乘视频直播的“东风”抢滩云市场。然而,京东所擅长的电商物流领域,面对的是可结构化的文本数据,在视频这类多媒体的数据处理上能力有限、信心不足。而金山正好有丰富的视频编解码经验,这也是京东云后来欲与金山云合并的原因之一。关于京东云、金山云与百度云三方的合并细节,雷峰网在《截杀阿里腾讯的“云”巨头们》中有详细报道。

在京东云、金山云的合并遭刘强东否决之后,公司上下另觅得的一条路子,是将云与AI相结合,周伯文等大批Fellow级AI人才也因此加盟。浩浩荡荡的“AI铁军”列阵在集团内部,京东云也迎来了科技品牌最星光熠熠的一段时光。

《超级女声》后遗症与百度云

在外界眼中,百度云的经历通常被描述成这种模样:李彦宏大谈“旧瓶装新酒”,有眼不识云计算,一个除了错过就是迟到的故事。

但百度与云计算的渊源,严格来说甚至早于盛大创新院和阿里云。这个故事的开头,或许要从2005年讲起。

2005年的8月有两件大事,一是百度成功登陆美国纳斯达克,成为中国互联网征战海外的标志性事件;二是湖南卫视《超级女声》总决赛落下帷幕,李宇春夺冠,比赛期间万人空巷,那一届超女至今仍是中国电视史上的流量巅峰。

这两件事之间有个不得不提的联系,那一年超女的流量压垮过国内绝大多数社区和论坛,百度贴吧是当时唯一能扛住的网络讨论区,因此迅速成为了粉丝们的主要根据地。

这完全超出了百度的预料,他们内测的所有数据,无一比得过李宇春;为了减轻系统负担,管理员删掉了张靓颖吧一栋有三十余万跟帖的高楼,惹得众人不快,他们惊觉为此上门前来交涉的粉丝带头人竟然还有高校教授……

超女这股东风,是贴吧崛起史上浓墨重彩的一笔,让老百度人印象深刻。同时,这也从侧面反映了一个事实:百度比现在任何一家云巨头,都更早地接受了高并发的考验。

不光是贴吧火热,百度上市后的两三年时间里,新产品层出不穷。百度人逐渐意识到一个问题:不能每个新产品的所有构成都从头做起吧,能不能摸索出一些通用的、可复用的基础模块或服务,减少工程师们的重复劳动?

于是一个叫ibase的小部门成立了,侯震宇(现百度集团副总裁)担任负责人,它的职能是最大程度上统一百度非搜索业务的技术底座,建立一些基础的通用库——尽管当初还没有“技术底座”这样的说法。

侯震宇

侯震宇

侯震宇曾告诉雷峰网,从打造通用技术底座的角度,百度云的历史应该可以追溯到2006年。

2006年,百度世界大会发布了百度的博客产品——百度hi。百度hi开始向用户提供图片的存储和展示功能,其中,图片存储功能被做成了一个可以通用的存储模块。

这里就是百度云的发端,也是中国互联网最早的面向C端的云存储系统的雏形。

“百度网盘现在这样的大存储,也是从当年我们云上的那个所谓的通用存储模块开始的。”侯震宇说:“把一些基础功能模块化让我们的研发事半功倍,也正是从那时开始,2008年成立了一个新的部门,它可以说是之前的ibase小部门的升级,来围绕怎么为百度的产品提供专门的通用服务、底座”。

这个新部门最后定名为了百度的基础架构部,侯震宇出任百度基础架构部主任架构师,他属于真正第一批搭建百度的技术体系的人,也是第一批中国互联网上“造云的人”。

就在这时,百度关注到了谷歌的三篇云计算论文。这三篇被认为是云计算历史里程碑的论文,分别讲述了分布式文件GFS(Google File System)、分布式数据库Big Table和编程模式Map/Reduce,也加速了百度向云靠拢。

很快,在2010年,百度就决定在原有的基础架构部上,建立一个更大的公司级的基础架构部,目标从针对非搜索产品,变成把所有的百度技术底座打通。百度全公司的基础设施和工程项目在这一年,首次正式统一。

2010年也是百度在PC互联网时代的顶峰和股价的一个高峰,资金充裕的百度工程师开始大规模采买各种服务器。据悉当时的服务器规模只有小几万台,百度大手一挥,很快立项了两个十万台量级的机房项目。

当管理的资源上了一个新的台阶,后而达到恐怖的量级的时候,百度开始考虑搭建一种可以横向拉通的底层基础设施。

这种架构的实施的外在之一,就是BAE(Baidu App Engine),在谷歌也有对应的概念GAE(Google App Engine),侯震宇评价说:“这可能和现在的PaaS,从技术上是不太一样的,但是理念上是一致的,就是基于云的技术底座上面的一层。”

有资深业者认为,谷歌的GAE和百度的BAE,本质上可以看做是第一代有PaaS概念的云产品,目标都是为了让用户在一个比IaaS层更高、用户使用方便程度也更高的层次上使用云和一些底层能力,但这些概念并没有转化为今天的主流PaaS或者说云原生架构,属于“太超前的尝试”。

“就好比那时候谷歌、百度已经研发出了微波炉,然后拿出去推广,可是这时候用户家里连电都没有,就更不要说买‘家电’了”,这位业者如此譬喻说:“相比之下,AWS和阿里云在技术上没有那么前沿,但是他们是按卖电-卖灯泡-再卖电器的路径来的,这个路径不那么酷但更符合商业的底层逻辑”。

侯震宇认为,广义上讲,百度从第一天起就是一个云上的公司;狭义上讲,云计算本质上,是是分布式计算、并行计算和网格计算的发展。早在2008年,百度的Hadoop分布式系统就有300台机器和2个集群,这已经具有云计算的很多特征。

云化的痕迹明显,不过在很长一段时间里,百度内部一直没有用云这个词。

2011年是刘强东注意到Dropbox动心做云的时间点,也是百度开始考虑公有云、私有云问题的重要节点。那时,百度是用开放云和个人云做区分的,个人云后来孵化成长为大家熟知的百度网盘业务。

这一年的年末,移动互联网风起。侯震宇回忆道,当时百度没有将云纯粹作为基础设施来做,而是将其作为移动生态的组成部分。因此这个重要节点之后的决定反而是,在2012年元旦成立移动事业部。

做云,百度在技术上明明有领先身位,却没有更早以开放形式提供给业界,错过最早一批“低垂的果实”,即首批上云的互联网企业客户,也没有在内部给出清晰的战略定位,这多少有些令人遗憾。

但我们在《截杀》一文也指出,云计算的推广需要三个条件——足够的技术示范、足够的市场教育、足够好的B端销售能力。

百度长于技术,自身也是用云典范;但对于B端非互联网企业来说,云计算太新,也太难理解,后来是市场运作意识更强的阿里,在云的推广上,以一己之力推动了中国云计算的市场教育。

至于销售方面,百度从出生至今,To B业务中技术派人物一直占绝对主流,在百度的文化里,销售能力的优先级不会太高。

倘若百度当时贸然大举进攻入云,恐怕也不会有太好的结局。

2015~2016年间,侯震宇认为,这是中国云计算的分水岭,2015年也是百度正式吹响进攻云计算市场号角的重要时间点。

但在这关键的两年里,百度云其实在市场上是缺位的。尽管当时,尹世明入主百度云,作为典型的To B销售人才,与张志琦、荆伟等人一道,为百度云带来过不少大客户,但他主张的激进销售策略未能长久,百度云仍然不擅长政企关系,仍然踩不准当时的市场节奏。

侯震宇本人也在这段时间离开百度去了金山,他2018年重回百度时,CTO王海峰已完成对百度To B业务的重整。开放云的大旗回到基础架构部,也就是后来的百度智能云班底。2020年,百度云也从尹世明回到了王海峰手中,负责技术架构的侯震宇开始负责百度基础云。

只看2005~2015这十年,百度云往往会被概括为“起了大早赶了晚集”,但时隔数年,百度云已经重整旗鼓。

2020年初,百度将ACG(百度云事业群组)与AIG(AI技术平台体系)、TG(基础技术体系)、整合为“百度人工智能体系”(AI Group、缩写为AIG)。某种程度上来说,走向“云智一体”,标志着百度云正式“重生”。

未被写入正史的故事起伏跌宕,如今,他们也处在下一个新时代的开场。阿里云迎来了华为出身的蔡英华,这也是阿里集团史上极少有的空降M7级高管的案例。京东云收归于京东科技麾下,由李娅云统领;京东云的掌舵人,从周伯文更替为高礼强。百度云也在前不久由沈抖接班王海峰,两位百度老兵顺利地完成了交接棒。

过去的岁月是尘埃落定了,但中国云计算江湖,还远没有到尘埃落定的时候。

“腾讯超30岁员工占近六成”上热搜 网友:不提35岁,开始提30岁了 “人造肉第一股”今年股价重挫50%以上,还能翻红吗?
相关阅读: