AMD能成为下一个英伟达吗?

AMD股价近日创出历史新高,市值也一度突破了2800亿美元,把昔日大哥英特尔(目前市值2000亿左右)甩在身后。AMD股价在2023年累涨近130%。
硬件设备 AMD 英伟达
2024-01-26 15:27:51  |   作者:航标  |   来源:航标IT精选

AMD能成为下一个英伟达吗?

AMD股价近日创出历史新高,市值也一度突破了2800亿美元,把昔日大哥英特尔(目前市值2000亿左右)甩在身后。AMD股价在2023年累涨近130%。
硬件设备 AMD 英伟达
2024-01-26 15:27:51
作者:航标
来源:航标IT精选

AMD股价近日创出历史新高,市值也一度突破了2800亿美元,把昔日大哥英特尔(目前市值2000亿左右)甩在身后。AMD股价在2023年累涨近130%,虽然相比英伟达(239%)、Meta(194%)略显逊色,但这个成绩绝对亮眼。

过去的一年,生成式AI异军突起,让英伟达的GPU一卡难求,英伟达因而赚得盆满钵满。而Meta有望成为匹敌OpenAI的又一家生成式AI技术公司。当下的Meta正在加紧训练Llama 3,直接对标谷歌Gemini。AMD能与这两家公司比肩也是一种荣耀。

图1.png

和英伟达、Meta一样,AMD股价的飙升也得益于AI市场的爆火。根据市场研究机构Gartner最新预测,到2024年AI芯片市场规模将较上一年增长 25.6%,达到671亿美元,预计到2027年,AI芯片市场规模预计将是2023年规模的两倍以上,达到1194亿美元。AMD自己对AI芯片市场更乐观,AMD CEO苏姿丰预测,到2027年,数据中心人工智能芯片市场的规模将达到4000亿美元。而AMD、英特尔、英伟达一起是AI芯片市场的三大主要玩家。

向英伟达发起强力挑战

在今数据中心GPU市场,英伟达一家独大。AMD是目前为数不多真正能向英伟达发起挑战的厂商,虽然其挑战并不足以构成太大威胁。那些“苦英伟达已久”的企业也非常期待AMD能一己之力打破英伟达的垄断,能够改变AI芯片市场格局。

AMD挑战英伟达的底气来自其创新的产品。去年6月份,AMD发布了新一代GPU MI300系列,正式向英伟达发起强力冲击。AMD公司对MI300寄予厚望,预计2024年MI300系列的收入将达到20亿美元。

AMD推出的MI300系列包括MI300X和MI300A两款产品。其中MI300X 采用了8 XCD、4个IO die、8个HBM3堆栈,高达256MB的AMD Infinity Cache和3.5D封装的设计,是一款全部面向 AI 和 HPC 工作负载的设计。它的晶体管也达到了1530 亿颗,是AMD 迄今为止制造的最大芯片。MI300X采用众多领先的半导体技术,如AMD所宣称的3.5D封装技术。

根据AMD的说法,MI300X 在人工智能推理工作负载中的性能比英伟达 H100高出1.6倍,在训练工作中的性能与 H100相当,从而为业界提供了急需的高性能替代品,以取代英伟达的GPU。尽管英伟达对此数据进行了反驳,但MI300X的性能强大应该是毋庸置疑的。

同时,MI300X的 HBM3 内存容量达到惊人的 192 GB,使其 MI300X 平台能够支持每个系统两倍多的 LLM,能运行比 H100 HGX 更大的模型。AMD表示,MI300X可以支持装载400亿个参数的Hugging Face AI模型。

基于MI300X,AMD还宣布了Instinct平台,其搭载8颗MI300X,提供总计1.5TB的内存,意味着该计算平台能训练参数规模更大的大语言模型。AMD说,在完成某些推理任务时,Instinct MI300X的性能要比英伟达H100 HGX强60%。业内人士相信,即使跟英伟达尚未问世的H200相比,Instinct MI300X应该也颇具竞争力。

CUDA生态是拦路虎

虽然AMD目前在产品上可以凭借MI300X不错的性能、良好的性价比赢得一部分用户,但要真正在数据中心GPU市场站稳脚跟,向英伟达真正发起强力挑战, 必须越过CUDA平台这个挡在AMD面前的拦路虎。

CUDA是英伟达于 2006 年推出的通用并行计算架构,已经持续打造了近20年。CUDA不仅是一个硬件平台,更是一个软件栈,包括设备驱动和SDK等。CUDA的问世使得普通程序员可以使用C语言、C++等编程语言在GPU平台上进行大规模并行计算,作为一种通用GPU计算的革命性架构,极大地提高了科学家和研究人员利用GPU进行复杂计算的能力,这让GPU的应用领域大大拓宽。

今天,CUDA已经成为深度学习和AI训练的首选GPU架构,也奠定了英伟达在AI训练与推理市场的领先地位,成为英特尔、AMD超越英伟达的一大障碍。英特尔CEO帕特基辛格(Pat Gelsinger)就曾公开抨击英伟达的CUDA技术,称其是一种“封闭和专有的”平台,限制了人工智能的发展和创新。

可以说,成熟和完善的CUDA生态成为了英伟达在GPU市场的护城河。由于英伟达CUDA的存在,AMD注定很难像过去因英特尔的失误而抢夺其在数据中心的领导地位那样迅速抢占英伟达的GPU市场。

面对英伟达精心构筑起来的CUDA平台,AMD也在打造自己GPU软件生态,这就是ROCm (Radeon Open Compute Platform )。目前,ROCm已升级到第6版,ROCm 支持多种编程语言、编译器、库和工具,以加速科学计算、人工智能和机器学习等领域的应用。ROCm还支持多种加速器厂商和架构,提供了开放的可移植性和互操作性。

不过,与CUDA相比,ROCm面向并行计算的软件库覆盖度还有差距,再加上以前产品本身落后于英伟达,使得ROCm在市场上的普及程度不高,还需要不断丰富和完善。显然,没有ROCm的“护法”,单靠产品本身是无法撼动英伟达的霸主地位的。

值得一提的是,对于中国的GPU厂商而言,同样面临突破英伟达CUDA的问题。目前由于受美国芯片法案的限制被英伟达阉割后的GPU在中国市场不像以往受欢迎,很多中国企业转向了华为、百度、寒武纪等中国厂商。这对国产AI芯片的成长绝对是一件好事,有更多的用户才能形成更强大的生态,才能培育出国产GPU的土壤,帮助国产GPU早日壮大!