英伟达Blackwell芯片面临严重发热问题
英伟达Blackwell芯片面临严重发热问题
作者:开源爱好者
来源:
据报道,这些问题已经导致设计更改,这意味着产品发货将延期,并引发人们担忧其最大客户,包括谷歌、Meta和微软,能否按照计划部署搭载Blackwell的服务器。 知情人士表示,英伟达的Blackwell GPU在配备72个处理器的超密集服务器中会过热。每个Blackwell处理器功耗超过1000瓦,因此在相对较小的空间内会产生大量的热量和功耗。 据说,英伟达正在与供应商和合作伙伴紧密合作,开发修订版并进行设计更改以解决过热问题。此类重新设计并不罕见,但在此情况下,它将推迟原定于本季度的预期发货日期。 这并非困扰Blackwell的首批传言。8月有消息称,英伟达及其制造合作伙伴台积电正在处理因处理器封装设计问题导致的良品率问题。但这一问题已在季度收益电话会议上得到迅速解决并基本被忽略。 英伟达在当地时间11月20日股市收盘后公布收益。目前,公司发言人表示:“英伟达GB200系统是有史以来最先进的计算机。将它们集成到各种数据中心环境中需要与客户进行联合工程。我们的工程迭代符合预期,包括戴尔科技和CoreWeave在内的一些合作伙伴正在超级计算大会和社交媒体上推广新的英伟达GB200 NVL72设计。” Moor Insights & Strategies的首席分析师Anshel Sag对这些说法并不完全认同。“我认为现在判断这是否是一个普遍问题或配置问题还为时过早。我无法想象英伟达会推出一个会过热的部件,尤其是考虑到已经需要大量的冷却措施,”他说。 他认为这条新闻发布的时机很可疑。超算2024大会正在举行,不排除是英伟达竞争对手试图放出负面消息。 “超算大会是高性能计算领域的重要人物聚会、交流和购物的时机,而今天就是抛出这样一个大传言的日子,好让它像野火一样在整个行业迅速传播,”他说,“如果信息看起来理所当然,它会在展会结束后随着人们私下交谈和八卦而传播开来。这几乎就像是竞争对手会传播的泄露信息,以便让更多人关注他们的竞争平台。” |