西方唯一AI芯片独角兽 单挑英伟达

日期:01-22
英伟达布里斯托人工智能

出品|虎嗅科技组

作者|宇多田

头图|视觉中国

以布里斯托市A38路旁的喷泉池为起始点,你需要花用不到20分钟时间,就可以骑自行车“冲”出这座英国西南部城市的CBD,进入几乎只有成排英式平房、灌木丛和河道的郊外。

没错,即便布里斯托(Bristol)是名副其实的英国西南部中心,但从城市规模来看,但它依然被很多中国留学生起了一个非常清新脱俗的名字——“布村”。(“除了伦敦,其他都是村儿”。)

然而,如今接触芯片产业后,我们才恍然发现,这座古老的英国小城,竟然藏着英国最强大的半导体产业集群之一。

西方唯一AI芯片独角兽 单挑英伟达

图为英伟达在布里斯托的研发中心。2011年收购英国半导体公司Icera后,英伟达便在布里斯托扎根,并在这里投资上千万英镑建立新工厂和实验室

1972年,硅谷大名鼎鼎的仙童半导体(英特尔、AMD的创始人们都是从这家公司出来的)为进入欧洲市场做出了一个重要决策——在布里斯托设立一个办事处。自此,便打开了这座英国西部小城面向半导体产业的全球视野。

而6年后,诞生于布里斯托,并在80年代占据全球SRAM市场60%份额的微处理器公司Inmos,接受了卡拉汉政府与撒切尔政府高达2亿英镑的投资,才终于创造出以布里斯托核心的英国半导体基础设施与生态系统,召集了大批像XMOS半导体创始人、英国著名计算机科学家David May这样的半导体超级精英。

“其实布里斯托一直都是英国的IT重镇。它与周围的斯温顿、格洛斯特组成一个三角地带,被称为欧洲的‘硅谷’。半导体公司如果在欧洲设立研发中心,布里斯托通常是首选。譬如英伟达、惠普、博通、高通等世界级巨头都在布里斯托设有办事处。”

一位了解欧洲半导体产业的从业者告诉虎嗅,很多人因为ARM对剑桥印象深刻,但从历史来看,实际上布里斯托才是英国的芯片设计中心。

“华为也在布里斯托也有研发中心。”

西方唯一AI芯片独角兽 单挑英伟达

就像上世纪50年代,8位天才“叛徒”离开仙童半导体创立英特尔、AMD、泰瑞达等公司,才成就了如今的硅谷一样,布里斯托才华横溢的工程师们也不甘于停留在“过去”——在摩尔定律失效争议进入高潮,人工智能、计算结构发生异变的“临界点”上,没有人不渴望能够成为那个改变时代的领导者。

一位名叫 Simon Knowles的工程师从剑桥大学毕业后,在1989年第一次踏上布里斯托的土地,接受了存储器企业Inmos的一份芯片设计工作。

在此后近20年里,从Inmos内部一个专用处理器团队的领导者,再到两家半导体企业Element 14与 Icera的创始人之一,Knowles几乎见证了摩尔定律达到巅峰和走向衰落的全过程。而幸运的是,Knowles参与创立的这两家总估值超过10亿美元的公司,分别在2000年和2011年被博通和英伟达收购。

没有任何意外,这位天才半导体设计师与连续创业者,又继续在2016年另起炉灶,与另一位天才半导体工程师Nigel Toon创立了一家新的半导体设计公司,主动迎击人工智能市场需求触发的芯片架构创新机会。

没错,这家公司就是刚在2020年12月29日宣布完成2.22亿融资(这笔融资也让公司的资产负债表上拥有4.4亿美元现金),估值已高达27.7亿美元,被外媒称为英伟达最大对手之一的人工智能加速处理器设计商Graphcore。

需要注意,它也是目前西方AI芯片领域唯一的独角兽。

图片为Graphcore的IPU处理器

图片为Graphcore的IPU处理器

西方私募与风投对待半导体这种项目一直非常谨慎,因为它们资金高度密集且无法预估前期投资回报。正如Knowles在一次采访时承认:“与能够小规模尝试、不成功再换一个坑的软件产业相比,如果一枚芯片设计失败,除了花光所有钱,公司几乎无路可选。”

因此,直到2018年以后,随着人工智能商业化的可能性被持续鼓吹和放大,投资者们才确定可以从“人工智能大规模运算驱动芯片结构变革”的趋势中看到回报前景。

于是,在2017年获得了超过8000万美元投资后的Graphcore,又接连在2018年与2020年分别获得2亿与1.5亿美元风险投资。

需要注意的是,除了博世、三星从A轮就开始参投,红杉资本是Graphcore的C轮领投方,而微软与宝马i风投则成为其D轮融资领投方;

而E轮融资的主要参与者,则是非产业基金——加拿大安大略省教师养老金计划委员会领投,富达国际与施罗德集团也加入了这轮融资。

你可以从投资方看出,Graphcore的产业投资方基本分为三个产业方向——云计算(数据中心)、移动设备(手机)与汽车(自动驾驶)。没错,这是三个最早被人工智能技术“入侵”的产业。

图片来自Crunchbase

图片来自Crunchbase

工业界们似乎越来越达成这样一个共识,未来需要有一家像ARM主导移动设备时代一样的底层创新企业,除了有希望卖出上亿块芯片的同时,也能推动人工智能与各个产业的深度整合,最终触达到上百亿普通消费者。

从产品的角度来看,Graphcore在2020年拿出了相对引人注目的作品——推出第二代 IPU-M2000芯片,该芯片搭载在一个名为IPU Machine platform的计算平台上。另外,其芯片配套的软件栈工具Poplar也有同步更新。

“教计算机如何学习,与教计算机做数学题,是完全不同的两件事。提升一台机器的‘理解力’,底层驱动注重的是效率,而不是速度。” Graphcore CEO Nigel Toon将新一代AI芯片的开发工作视为一个“千载难逢的机会”。

“任何公司能做到这一点,都能分享对未来几十年人工智能技术创新和商业化的决定权。”

切中英伟达的“软肋”

没有一家AI芯片设计公司不想干掉市值高达3394亿美元的英伟达。或者说,没有一家公司不想做出比GPU更好的人工智能加速器产品。

因此,近5年来,大大小小的芯片设计公司都倾向于在PPT上,用英伟达的T4、V100,甚至是近期发布的“最强产品”A100与自己的企业级芯片产品做比较,证明自己的处理器拥有更好的运算效率。

Graphcore也没有例外。

他们同样认为,由于上一代的微处理器——譬如中央处理器(CPU)和图形处理单元(GPU)并不是为人工智能相关工作而专门设计,工业界需要一种全新的芯片架构,来迎合全新的数据处理方式。

当然,这样的说法并不是利益相关者们的单纯臆想。

我们无法忽视来自学术界与产业界对GPU越来越多的杂音——随着人工智能算法训练与推理模型多样性的迅速增加,在诞生之初并不是为了人工智能而设计的GPU暴露出了自己“不擅长”的领域。

“如果你做的只是深度学习里的卷积神经网络(CNN),那么GPU是一个很好的解决方案,但网络已经越‘长’越复杂,GPU已经难以满足AI开发者们越来越大的胃口。”

一位算法工程师向虎嗅指出,GPU之所以快,是因为它天生就能并行处理任务(GPU的释义和特点可以看《干掉英伟达》这篇文章)。如果数据存在“顺序”,无法并行,那么还得用回CPU。

“很多时候既然硬件是固定的,我们会想办法从软件层,把存在顺序的数据,变为并行的数据。譬如语言模型中,文字是连续的,靠一种‘导师驱动’的训练模式就可以转换为并行训练。

但肯定不是所有模型都可以这么做,譬如深度学习中的‘强化学习’不太适合用GPU,而且也很难找到并行方式。”

由此来看,学术圈不少人甚至喊出“GPU阻碍了人工智能的创新”这句话,并不是耸人听闻。

深度学习的4个发展脉络,制图:宇多田

深度学习的4个发展脉络,制图:宇多田

“深度学习”,这个近10年来机器学习领域发展最快的一个分支,其神经网络模型发展之快、类型之广,只靠GPU这块硬件的“一己之力”是很难追上其复杂运算脚步的。

Graphcore回复了虎嗅一份更为详尽的答案。他们认为,对于深度学习中除去CNNs的另外几个分支,特别是循环神经网络(RNN)与强化学习(RL),让很多开发者的研究领域受到了限制。

譬如,用强化学习做出了阿尔法狗的英国AI公司 Deepmind,很早就因为GPU的计算局限问题而关注Graphcore,其创始人Demis Hassabis最后成为了Graphcore的投资人。

“很多企业产品部门的开发者把需求(特别是延时和吞吐量的数据指标)交给算力平台部门时,他们通常会拒绝说‘GPU目前不够支持这么低的延时和这么高的吞吐量’。

主要原因就在于,GPU的架构更适用于‘静态图像分类与识别’等拥有高稠密数据量的计算机视觉(CV)任务,但对数据稀疏的模型训练并不是最好的选择。

而跟文字相关的“自然语言处理”(NLP)等领域的算法,一方面数据没那么多(稀疏),另一方面,这类算法在训练过程中需要多次传递数据,并迅速给出阶段性反馈,以便为下一步训练提供一个便于理解上下文的语境。”

换句话说,这是一个数据在持续流动和循环的训练过程。

就像淘宝界面的“猜你喜欢”,在第一天在“学习”了你的浏览和订单数据后,把不太多的经验反馈给算法进行修正,第二天、第三天以及未来的每一天不断学习不断反馈,才会变得愈加了解你的产品喜好。

而这类任务,譬如谷歌为更好优化用户搜索在2018年提出的BERT模型,便是优秀且影响深远的RNN模型之一,也是Graphcore提到的“GPU非常不擅长的一类任务”。为了解决这类问题,仍然有很多公司在使用大量CPU进行训练。

CPU与GPU架构对比

CPU与GPU架构对比

从根本上看,这其实是由当下芯片运行系统最大的瓶颈之一决定的——如何在一块处理器上,将数据尽可能快地从内存模块传送到逻辑操作单元,且不费那么多功耗。在进入数据爆炸时代后,解锁这个瓶颈便愈加迫在眉睫。

举个例子,2018年10月 BERT-Large的模型体量还是3.3亿个参数,到2019年,GPT2的模型体量已达到15.5亿(两个均属于自然语言处理模型)。可以说,数据量对从系统底层硬件到上层SaaS服务的影响已经不可小觑。

而一块传统的GPU或CPU,当然可以执行连续多个操作,但它需要“先访问寄存器或共享内存,再读取和存储中间计算结果”。这就像先去室外地窖拿储存的食材,然后再回到室内厨房进行处理,来来回回,无疑会影响系统的整体效率和功耗。

因此,很多半导体新兴企业的产品架构核心思路,便是让“内存更接近处理任务,以加快系统的速度”——近存算一体。这个概念其实并不新鲜,但能做出真东西的公司少之又少。

而Graphcore到底做到了什么?简单来说,便是“改变了内存在处理器上的部署方式”。

在一块差不多像小号苏打饼一样大的IPU处理器上,除了集成有1216块被称为IPU-Core的处理单元,其与GPU和CPU最大的不同,便是大规模部署了“片上存储器”。

简言之,便是将SRAM(静态随机存储器)分散集成在运算单元旁,抛弃了外接存储,最大程度减少数据的搬移量。而这种方法的目标,就是想通过减少负载和存储数量来突破内存带宽瓶颈,大大减少数据传输延迟,同时降低功耗。

IPU架构

IPU架构

也正因为如此,在一些特定算法的训练任务中,由于所有模型都可以保存在处理器中,经过测试,IPU的速度的确可以达到GPU的20~30倍。

举个例子,在计算机视觉领域,除了大名鼎鼎且应用广泛的残差网络模型ResNets(与GPU很契合),基于分组卷积与深度卷积方向的图像分类模型 EfficientNet和 ResNeXt模型也是逐渐兴起的研究领域。

而“分组卷积”有个特点,就是数据不够稠密。

因此,微软机器学习科学家 Sujeeth用Graphcore的IPU做了一次基于EfficientNet模型的图像分类训练。最后的结果是,IPU用30分钟的时间完成了一次新冠肺炎胸部X光样片的图像分析,而这个工作量,通常需要传统 GPU用5个小时来完成。

重重考验

但是,就像GPU的大热与计算机视觉领域的主流算法模型ResNets的广泛应用的相辅相成,决定Graphcore成功还是失败的关键,也在于“特定”。

就像Graphcore销售副总裁兼中国区总经理在接受虎嗅采访时指出:

一方面,他们的产品的确更适用于训练市场中数据较为稀疏,精度要求较高的深度学习任务,譬如与自然语言处理相关的推荐任务,这也是阿里云与百度愿意与之达成合作的重要原因之一。

另一方面,计算机视觉领域刚流行起来的新模型,是IPU在努力“攻克”的方向,而之前很多模型,还是GPU最应手。

此外,GPU创造的强大软件生态Cuda,比硬件更不容易被破坏(关于Cuda,也在《干掉英伟达》这篇文章里有详细解释),而这层围墙恰恰是开辟产业影响力的关键。

毫无疑问,Graphocore在这方面根基尚浅,因此除了常规操作,他们选择基于编程软件Poplar,做一些相对大胆的尝试。

譬如,他们在自己的开发者社区开放计算图库PopLibs的源代码,让开发者去尝试描述一种新的卷积网络层。这一层对标的是GPU的cnDNN和cuBLAS,而英伟达并没有开放它们。

为了向开源社区致敬,Poplar v1.4增加了对 PyTorch的全面支持。这一聪明的举动将有助于简化人们的接受程度,有助于吸引更广泛的社区参与。

此外,为了能够尽快打开市场,Graphcore并没有走“打比赛来提升产业知名度”的实验室销售路线,而是将IPU直接推入了产业界,去逐个敲开服务器集成商、云厂商等客户的大门。

“AI这个行业本身,不管是算法的迭代还是模型的变化,其实都是非常快的。有云厂商曾抱怨,说某家处理器跑某一种模型性能非常好,但模型稍微改一改,跑出来的性能就大跌眼镜。”

Graphcore中国区技术应用总负责人罗旭认为,尽管市场在大量鼓吹ASIC(专用芯片)和FPGA(可编程芯片),但通用性,仍然是产业界考虑芯片的首要条件,尤其是互联网厂商。

“互联网厂商应用非常多,每个应用都会有不同的适用模型。如果一个处理器只能适配一个模型,那客户是无法引入这个处理器做大量推广的。”

而“编程环境是否友好”,也就是英伟达Cuda贡献的那种力量,是第二个关键的采购指标。

“现在客户一般都是用AI框架来设计模型,比如谷歌的TensorFlow、Facebook的PyTorch等等。他们会考虑这枚处理器的上层SDK是否能够轻松接入到框架里,以及编程模型是否好用。

客户可能会有一些算子级别的优化,需要做一些自定义算子。自定义算子开发起来是否方便其实也是取决于编程友好性如何。”

如果说客户还在乎什么,当然是产品性能。

无论是云厂商、服务器厂商还是通过云服务购买算力的开发者,都会测试多种模型跑在芯片上的性能表现。

“如果他们主要看重NLP(自然语言处理)模型,那在性能测试时就可能重点测一下BERT。如果他们看重计算机视觉,那在性能测试时就可能重点测试一些计算机视觉的经典模型。

总的来说,客户需要从以上几个维度综合评估下来,才能决定到底要不要使用这个处理器,或者说,必须确定这个处理器能给他们带来多大的收益。”

而在这个方面,无论是英伟达,还是Graphcore的IPU或其他厂商的专用芯片,都是有自己最擅长的模型,只能说是“各有千秋”,绝对不能以偏概全。

赢家通吃,将不复存在

从Graphcore给出的产品基准测试指标与宣传重点来看,这家公司正在拿着锤子找钉子,努力扩展IPU擅长的应用场景,以便让IPU架构能够发挥最大效率。

换句话说,Graphcore或许会分英伟达的一杯羹,但永远不可能取代它们。

正如“特定”这个词的含义所限,人工智能训练与推理芯片市场,因模型的多样性与复杂性,一定能够容纳包括英伟达、Graphcore在内更多的芯片企业。

Nigel Toon也承认,人工智能计算将孕育出三个芯片垂直市场:

相对简单的小型专用加速器市场,譬如手机、摄像头以及其他智能设备里的某个IP核;

再譬如适用于数据中心某几个功能的ASIC芯片,具体问题具体解决,超大规模数据中心运营商(云厂商)将在这个市场中有大量机会;

最后一个是可编程的AI处理器,也就是GPU所在的市场。这个市场一定会有更多企业,同时未来更多的创新也一定会产生更大的份额。

CPU会持续存在,GPU也会持续创新,他们在某些AI计算任务上都是不可或缺的,或者说是最好的选择。但是摩尔定律失效、AI计算和数据爆炸等趋势催生出的新市场,一定是巨大且多样性的。正是因为多样性,所以才给了更多专用芯片公司新的机会。

因此,像Cerebras、Groq、 SambaNova Systems、Mythic AI这样的芯片创业公司才得以筹集到数亿美元资金,英特尔也在今年投资了革新AI芯片架构的Untether AI。已经有不少人给出这样的预测——新一代的‘苹果’与‘英特尔’可能会在人工智能计算市场中诞生。

在软件还没有跟上硬件步伐的当下,这意味着激烈的竞争才刚刚开始。

特斯拉空头损失超400亿美元,为2020年最无利可图交易 苹果收涨超3%,股价盘中触及历史新高