继AWS、谷歌之后微软AI芯片下月发布，云厂商为何纷纷自研？_文章 - IT精选 - IT行业资讯与信息网

继AWS、谷歌之后微软AI芯片下月发布，云厂商为何纷纷自研？

避免被GPU“卡脖子”，同时通过软硬一体提升市场竞争力。

2023-10-10 13:50:52 | 作者：航标 | 来源：航标IT精选

继AWS、谷歌之后微软AI芯片下月发布，云厂商为何纷纷自研？

避免被GPU“卡脖子”，同时通过软硬一体提升市场竞争力。

2023-10-10 13:50:52
作者：航标
来源：航标IT精选

继亚马逊AWS、谷歌之后微软也走上了芯片自研的道路。据国外媒体报道，微软计划在下个月举行的年度开发者大会上推出首款人工智能芯片。有报道称，ChatGPT发布者OpenAI公司也正在筹划研发自己的AI芯片。应该说，如今大厂自研芯片并不稀奇，不仅AWS、谷歌已经有了自研芯片，中国的阿里、华为、百度都纷纷自研芯片，并且都已经有了不错的结果。众所周知，芯片研发是一个投入巨大而且有很大风险的大工程，在芯片产业日益成熟的背景下，原本是芯片用户的这些大厂不惧高风险而选择自研，原因何在？

一个很直白的原因是满足自己的需求，不希望被GPU“卡脖子”。

去年年底发布的ChatGPT意外爆红，带火了生成式AI市场，也带火了大模型和GPU背后的英伟达。大模型动辄千亿的参数量，它们必须由数千块GPU芯片共同分担，并持续数周或更长时间进行训练。为了运行大模型需要大量GPU，GPU市场英伟达一家独大，英伟达的GPU H100和A100也是众多大模型的首选。

根据TrendForce 集邦咨询的研究，ChatGPT 就需要使用到 3万块英伟达 GPU。在国外社交媒体上曾流行了一张“我们需要多少GPU”的图片。图片中列出了一些大厂对GPU的需求，比如，GPT-4需要2.5万张A100，Meta需要2.1万张A100等。

云厂商原本就是GPU的大用户，AWS、Azure和Google等头部大厂对GPU的需求量更是惊人。在云计算市场增速放缓的背景下，云厂商更是将AI视为主要的增长引擎，而纷纷加大投入。据专业人士估算，几家头部云大厂每家大约部署有3万张左右的GPU卡，而CoreWeave可能高达10万张。在中国市场，由于美国对高端GPU A100/H100禁售，只能买到低配的A100，但同样需求惊人。根据英国《金融时报》报道，百度、字节跳动、腾讯、阿里正在向英伟达订购价值 10 亿美元的 A800 处理器和 40 亿美元的 GPU。

在市场需求的刺激性下，GPU的价格也是水涨船高。在中国，英伟达特供的A800和H800芯片已经从原来的12万人民币左右，涨至了25万甚至更高，而且有钱还不一定能买到。由于市场需求远远超出了供应能力，引发了企业对英伟达GPU“疯抢”，英伟达的市值也首次突破了1.2万亿美元。英伟达赚得盆满钵满的同时，企业对GPU卡的需求却难以满足，在此背景之下，云大厂自研AI芯片就成为一个不得已的选择。

不过，云大厂对自研芯片其实还有更深层的原因：对于这些有足够技术实力的大厂而言，它们希望通过自研实现软硬结合，来提升性能、降低TCO，最终提升自己在市场的竞争力。

据报道，微软AI芯片的研发项目代号为“雅典娜（Athena）”，最早可以追溯到2019年，其基于台积电的5nm工艺制造，可扩展到数百甚至数千个芯片并行运作。与英伟达GPU性能相近的情况下，成本仅为三分之一。显然，雅典娜不仅可以帮助微软减少对英伟达的依赖，更可以大幅提升微软在云服务市场的竞争力。

对此AWS应该更有心得。AWS有两款专用AI芯片，分别是面向训练的芯片Trainium和面向推理的芯片是Inferentia。根据AWS的资料，基于Trainium的Trn1实例和通用的GPU实例对比，单节点的吞吐率可以提升1.2倍，多节点集群的吞吐率可以提升1.5倍。就成本而言，单节点成本可以降低1.8倍，集群的成本更是降低了2.3倍。Inferentia芯片已经推出了两代，其最新一代推理芯片Inferentia2可以做到吞吐提升三倍，延迟降低8.1倍，而成本只是通用GPU实例的1/4。

与AWS和微软相比，谷歌在自研AI芯片上的探索更早。其第一代TPU发布于 2016 年，AlphaGo 用的就是它。与 GPU 相比，TPU采用低精度计算，在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度。如今 TPU 已经发展到了第四代。谷歌 90% 以上的人工智能训练工作都在使用这些芯片。谷歌在一篇论文中表示，对于同等大小的系统，其TPU芯片比基于英伟达 A100 芯片的系统快 1.7 倍，能效高 1.9 倍。

中国企业在自研AI芯片上起步得也不晚。2018年百度就发布了自主研发AI芯片昆仑1， 2020年投入量产，2021年推出了第二代昆仑2。文心一言大模型训练用的也是昆仑芯片，这给百度带来了明显的成本节约。

阿里也有自己的专用AI芯片。来自平头哥的含光800是其于2019年发布的一款推理AI芯片，采用RISC-V架构和阿里独创算法，在控制效率和能耗方面取得了良好的平衡。华为的昇腾910也是一款AI芯片，它采用了华为自主研发的达芬奇架构。该架构采用了全新的并行计算的方式，可以实现更高效、更快速的人工智能计算。

除了AI专用芯片以外，很多云厂商也在自研通用CPU。亚马逊的Graviton就是一个很好的例子，基于Arm架构的Graviton如今已经演进到第三代，阿里云也推出了Arm架构的倚天710芯片。相比x86 CPU，Arm CPU以其更好的能效比为云服务商提供了更强的市场竞争力。

值得一提的是，即使是采用英特尔和AMD等芯片厂商的通用CPU，云厂商一般也会提出自己的定制需求，以此体现差异化的优势。比如腾讯云的星星海服务就采用了定制的AMD X86 CPU，专门适配腾讯云的业务需求。

实际上，云厂商的自研并不限于芯片，在主板、网络设备、存储等设备上也都会投入了大量人力物力进行自研。通过自研来优化架构、提升性能，赢得竞争优势已经成为各云厂商的共同选择。比如，DPU的研发就是一个很好的例子，阿里云的神龙架构和AWS的Nitro也是目前DPU最为成功的商业化应用。

根据IDC发布的研究报告，2023年第二季度用于云部署（包括专用和共享IT环境）的计算和存储基础设施产品支出同比增长7.9%，达到246亿美元。云基础设施的支出继续超过非云部分，后者在2023年第二季度下降了8.3%，为144亿美元。这反应出市场对云基础设施的需求越来越大，云厂商已经成为云基础设施的主要采购对象，其对相关技术发展的影响力也日益凸显出来了。可以说，云厂商已经不止是IT技术的使用者，而是越来越成为IT技术的一个创新者。云已经成为很多创新技术的孵化池，这也正是云计算对传统IT世界的颠覆之一。

	北京网络安全企业数全国第一
	我国超级计算机数量排名全球第一
	AMD发布4.06.10.651版芯片组驱动官网已可下载
	AMD市值反超英特尔
	NEC扩大与红帽的全球合作，推动IT现代化和数字化转型
	KDE社区发布Plasma 5.26
	包含RISC-V Linux端口和外来函数API的OpenJDK Java 19发布
	国产开源鸿蒙平板万里红SP10发布：2K屏、12nm芯片
	意法半导体与格芯宣布将合建MEMS芯片工厂
	我国增加芯片生产量，减少芯片进口量达283亿颗