英伟达将Blackwell机架设计贡献给OCP
英伟达将Blackwell机架设计贡献给OCP
作者:开源爱好者
来源:
在IT供应商的激烈竞争中,一些公司慷慨分享自己的设计可能令人惊讶,但这正是开放计算项目(OCP)基金会的50多家投票成员以及包括主要超大规模运营商和芯片制造商在内的300多家社区成员和初创公司正在做的事情。 在2024年OCP全球峰会上,英伟达宣布已将Blackwell GB200 NVL72的机电设计——包括机架架构、计算和交换机托盘机械结构、液体冷却和热环境规格以及英伟达NVLink线缆盒体积——贡献给该项目。 NVL72是一种液冷的机架级设计,连接了36个英伟达Grace CPU和72个Blackwell GPU,通过NVSwitch和NVLink将GPU互连,使它们能够作为一个庞大的GPU整体运行,并提供更快的大型语言模型(LLM)推理。 英伟达产品营销总监、AI和数据中心GPU部门负责人Shar Narasimhan解释说:“能够使用NVSwitch的一个关键要素是,我们必须将所有服务器和计算GPU紧密地放置在一起,以便将它们安装在一个机架内。这使我们能够使用铜质线缆进行NVLink连接,这不仅降低了成本,与使用光纤相比,还大大减少了功耗。” 然而,要做到这一点,机架必须得到加固以承受额外的重量,并且沿机架垂直向下的NVLink主干必须能够承载多达5000根铜质线缆。英伟达还为管道和线缆设计了快速断开和快速释放功能。Narasimhan表示,电源容量已升级至最高120千瓦和1400安培,这超过了当前机架设计的两倍多。 英伟达还宣布,其Spectrum-X以太网网络平台和全新的ConnectX-8 SuperNIC将支持OCP的Switch Abstraction Interface(SAI)和Software for Open Networking in the Cloud(SONiC)标准。面向OCP 3.0的ConnectX-8 SuperNIC将于明年上市。 最后,英伟达重点介绍了在其贡献基础上进行开发,并反过来为OCP做出贡献的合作伙伴,其中包括Meta的Catalina AI机架。 Narasimhan表示:“当一个参与者采用另一个参与者的开放设计,进行修改,然后再将其回馈给整个生态系统时,我们所有人都能从中受益并推动产业蓬勃发展。” Narasimhan补充说,Vertiv将发布一款基于GB200 NVL72的、面向大规模AI工厂的节能参考架构。 “通过将此作为一个参考架构,即AI工厂的模块化设计贡献出来,Vertiv帮助其他所有参与者消除了设计风险。”Narasimhan指出。“他们现在将设计和建设的周期缩短了50%。除此之外,他们还投入时间和精力来优化布局,以改善冷却利用率、最小化功耗并最大化空间利用率。遵循这一特定设计,Vertiv使冷却效率提高了20%,空间利用率降低了40%。” “我们感谢Meta和Vertiv为开源社区做出的贡献和参与,并欢迎计算社区的所有成员继续参与和投入。” |