继AWS、谷歌之后微软AI芯片下月发布,云厂商为何纷纷自研?

避免被GPU“卡脖子”,同时通过软硬一体提升市场竞争力。
2023-10-10 13:50:52  |   作者:航标  |   来源:航标IT精选

继AWS、谷歌之后微软AI芯片下月发布,云厂商为何纷纷自研?

避免被GPU“卡脖子”,同时通过软硬一体提升市场竞争力。
2023-10-10 13:50:52
作者:航标
来源:航标IT精选

继亚马逊AWS、谷歌之后微软也走上了芯片自研的道路。据国外媒体报道,微软计划在下个月举行的年度开发者大会上推出首款人工智能芯片。有报道称,ChatGPT发布者OpenAI公司也正在筹划研发自己的AI芯片。应该说,如今大厂自研芯片并不稀奇,不仅AWS、谷歌已经有了自研芯片,中国的阿里、华为、百度都纷纷自研芯片,并且都已经有了不错的结果。众所周知,芯片研发是一个投入巨大而且有很大风险的大工程,在芯片产业日益成熟的背景下,原本是芯片用户的这些大厂不惧高风险而选择自研,原因何在?

一个很直白的原因是满足自己的需求,不希望被GPU“卡脖子”。

去年年底发布的ChatGPT意外爆红,带火了生成式AI市场,也带火了大模型和GPU背后的英伟达。大模型动辄千亿的参数量,它们必须由数千块GPU芯片共同分担,并持续数周或更长时间进行训练。为了运行大模型需要大量GPU,GPU市场英伟达一家独大,英伟达的GPU H100和A100也是众多大模型的首选。

20231010-5.jpg

根据TrendForce 集邦咨询的研究,ChatGPT 就需要使用到 3万块英伟达 GPU。在国外社交媒体上曾流行了一张“我们需要多少GPU”的图片。图片中列出了一些大厂对GPU的需求,比如,GPT-4需要2.5万张A100,Meta需要2.1万张A100等。

云厂商原本就是GPU的大用户,AWS、Azure和Google等头部大厂对GPU的需求量更是惊人。在云计算市场增速放缓的背景下,云厂商更是将AI视为主要的增长引擎,而纷纷加大投入。据专业人士估算,几家头部云大厂每家大约部署有3万张左右的GPU卡,而CoreWeave可能高达10万张。在中国市场,由于美国对高端GPU A100/H100禁售,只能买到低配的A100,但同样需求惊人。根据英国《金融时报》报道,百度、字节跳动、腾讯、阿里正在向英伟达订购价值 10 亿美元的 A800 处理器和 40 亿美元的 GPU。

在市场需求的刺激性下,GPU的价格也是水涨船高。在中国,英伟达特供的A800和H800芯片已经从原来的12万人民币左右,涨至了25万甚至更高,而且有钱还不一定能买到。由于市场需求远远超出了供应能力,引发了企业对英伟达GPU“疯抢”,英伟达的市值也首次突破了1.2万亿美元。英伟达赚得盆满钵满的同时,企业对GPU卡的需求却难以满足,在此背景之下,云大厂自研AI芯片就成为一个不得已的选择。

不过,云大厂对自研芯片其实还有更深层的原因:对于这些有足够技术实力的大厂而言,它们希望通过自研实现软硬结合,来提升性能、降低TCO,最终提升自己在市场的竞争力。

据报道,微软AI芯片的研发项目代号为“雅典娜(Athena)”,最早可以追溯到2019年,其基于台积电的5nm工艺制造,可扩展到数百甚至数千个芯片并行运作。与英伟达GPU性能相近的情况下,成本仅为三分之一。显然,雅典娜不仅可以帮助微软减少对英伟达的依赖,更可以大幅提升微软在云服务市场的竞争力。

对此AWS应该更有心得。AWS有两款专用AI芯片,分别是面向训练的芯片Trainium和面向推理的芯片是Inferentia。根据AWS的资料,基于Trainium的Trn1实例和通用的GPU实例对比,单节点的吞吐率可以提升1.2倍,多节点集群的吞吐率可以提升1.5倍。就成本而言,单节点成本可以降低1.8倍,集群的成本更是降低了2.3倍。Inferentia芯片已经推出了两代,其最新一代推理芯片Inferentia2可以做到吞吐提升三倍,延迟降低8.1倍,而成本只是通用GPU实例的1/4。

与AWS和微软相比,谷歌在自研AI芯片上的探索更早。其第一代TPU发布于 2016 年,AlphaGo 用的就是它。与 GPU 相比,TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度。如今 TPU 已经发展到了第四代。谷歌 90% 以上的人工智能训练工作都在使用这些芯片。谷歌在一篇论文中表示,对于同等大小的系统,其TPU芯片比基于英伟达 A100 芯片的系统快 1.7 倍,能效高 1.9 倍。

中国企业在自研AI芯片上起步得也不晚。2018年百度就发布了自主研发AI芯片昆仑1, 2020年投入量产,2021年推出了第二代昆仑2。文心一言大模型训练用的也是昆仑芯片,这给百度带来了明显的成本节约。 

阿里也有自己的专用AI芯片。来自平头哥的含光800是其于2019年发布的一款推理AI芯片,采用RISC-V架构和阿里独创算法,在控制效率和能耗方面取得了良好的平衡。华为的昇腾910也是一款AI芯片,它采用了华为自主研发的达芬奇架构。该架构采用了全新的并行计算的方式,可以实现更高效、更快速的人工智能计算。

除了AI专用芯片以外,很多云厂商也在自研通用CPU。亚马逊的Graviton就是一个很好的例子,基于Arm架构的Graviton如今已经演进到第三代,阿里云也推出了Arm架构的倚天710芯片。相比x86 CPU,Arm CPU以其更好的能效比为云服务商提供了更强的市场竞争力。

值得一提的是,即使是采用英特尔和AMD等芯片厂商的通用CPU,云厂商一般也会提出自己的定制需求,以此体现差异化的优势。比如腾讯云的星星海服务就采用了定制的AMD X86 CPU,专门适配腾讯云的业务需求。

实际上,云厂商的自研并不限于芯片,在主板、网络设备、存储等设备上也都会投入了大量人力物力进行自研。通过自研来优化架构、提升性能,赢得竞争优势已经成为各云厂商的共同选择。比如,DPU的研发就是一个很好的例子,阿里云的神龙架构和AWS的Nitro也是目前DPU最为成功的商业化应用。

根据IDC发布的研究报告,2023年第二季度用于云部署(包括专用和共享IT环境)的计算和存储基础设施产品支出同比增长7.9%,达到246亿美元。云基础设施的支出继续超过非云部分,后者在2023年第二季度下降了8.3%,为144亿美元。这反应出市场对云基础设施的需求越来越大,云厂商已经成为云基础设施的主要采购对象,其对相关技术发展的影响力也日益凸显出来了。可以说,云厂商已经不止是IT技术的使用者,而是越来越成为IT技术的一个创新者。云已经成为很多创新技术的孵化池,这也正是云计算对传统IT世界的颠覆之一。