Nvidia 的超级芯片Grace-Hopper 很节能！_文章 - IT精选 - IT行业资讯与信息网

Nvidia 的超级芯片Grace-Hopper 很节能！

当下红帽三款最节能系统均由英伟达的 CPU-GPU 芯片驱动。不过AMD 的 APU 可能很快改变这种状况。

新闻资讯 NVIDIA 芯片

2024-05-17 17:27:15 | 作者：开源爱好者 | 来源：

Nvidia 的超级芯片Grace-Hopper 很节能！

当下红帽三款最节能系统均由英伟达的 CPU-GPU 芯片驱动。不过AMD 的 APU 可能很快改变这种状况。

新闻资讯 NVIDIA 芯片

2024-05-17 17:27:15
作者：开源爱好者
来源：

尽管人们对数据中心能耗飙升的担忧与日俱增，但今年春季发布的全球最具可持续发展能力的公开超级计算机Green500排名揭示了一个积极的现象：人工智能热潮背后的高能耗加速器同样推动了能效的大幅提升。

在排名最节能的十个系统中，有七个采用了英伟达的GPU，且包括前三名在内的一半系统均选用了英伟达的Grace-Hopper超级芯片（GH200）。

图片3.jpg

从高层次上讲，这些芯片将基于Arm Neoverse V2设计的72核Grace CPU与480GB LPDDR5x内存和H100 GPU完美结合。其中，H100 GPU采用高速NvLink芯片对芯片连接，并配备96GB至144GB HBM3或HBM3e内存。

Nvidia称，随着Alps机器的首次亮相，GH200现已成为Nvidia以HPC为中心的部署的核心，甚至在Top500最强大的10个公开已知系统中占据一席之地。事实上，Alps之前的测试平台以64.4 gigaFLOPS/watt的效率在Green500排行榜上名列第五。然而，这还不是GH200所能达到的最佳水平。

排名第一的是德国的Jedi系统，该系统是GH200和SiPearl Rhea驱动的Jupiter机器的前身，预计在今年晚些时候建成后将成为欧洲首个超大规模系统。较小的Jedi系统能够达到高达72.7 GFLOPS/瓦的能效。

配置相近的Isambard-AI Phase 1和Helios GPU系统紧随其后，分别以68.8和66.9 GFLOPS/瓦的能效表现位列其后。除了Isambard系列采用了更大的机器（特别是19.14 petaFLOPS的Helios GPU系统）之外，两者与Jedi系统的关键区别在于，这两台计算机使用的是HPE的Slingshot-11互连技术，而Jedi则依赖于Nvidia自家的InfiniBand NDR200网络。

无论如何，与两年前相比，这些数据均显著体现了系统效率的大幅提升。

2022年初，Green500上效率最高的系统是Frontier TDS测试平台，作为同年Top500排名第一的1.2 exaFLOPS Frontier机器的缩小版，它展现了出色的能效。事实上，完整的Frontier系统以52.2 GFLOPS/瓦的成绩位列第二，仅次于试验台的62.7 GFLOPS/瓦。

需要明确的是，扩展计算能力是一项复杂的任务，随着系统规模的扩大，效率问题往往难以避免。这也是为何效率最高的系统往往规模较小的原因之一。

2022年的Frontier和Frontier TDS，以及今年春季Green500中基于GH200的系统，都印证了这一点。前Alps系统的GFLOPS/watt值为64.8，而完整的Alps系统仅为52，在效率方面与Frontier不相上下。

在今年春季的Green500评选中，基于AMD Instinct的系统也进一步下滑。在效率最高的前十款超级计算机中，仅有三款采用了AMD的加速器，包括第七名的Frontier TDS、第九名的Adastra和第十名的Setonix GPU。

据说，在这些高密度系统中，15% 到 20% 的功耗可直接归因于风扇，即 1500 到 2000 瓦，大致相当于三个 H100 或 MI250X 高端加速器。与专门构建的高性能计算集群相比，这些云集群可能显得相当浪费。

所有这些系统都采用共同的架构，由 AMD 的第三代 Epyc Milan 处理器、MI250X GPU 和 HPE 的 Slingshot-11 互连提供动力。两年前，在 FLOPS/watt 方面，AMD 的部件还是最先进的，而现在 Nvidia 已经明显领先。

GH200突破带宽瓶颈

GH200 的强劲性能体现了高度集成封装设计的优势。超级芯片的 NvLink-C2C 互连技术将 CPU 和 GPU 连接起来，实现了两者之间高达 900 GB/s 的高效通信。这比目前 PCIe 5.0 x16 接口所能达到的 128 GB/s 速度有了大幅提升，当然也比这些集群中常见的 200 Gb/s 互连结构要好得多。

说到高性能计算和人工智能，带宽无论是在网络层面、插座层面，还是在计算和内存层面，都是一个始终存在的瓶颈，每一代产品都必须重新评估。因此，Nvidia 的 GH200 如此高效也就不足为奇了。

这表明，采用更快的网络设备后，我们可能会看到效率的提高。直到最近，基于 PCIe 4.0 的 CPU 还将互连带宽限制在每个端口 200 Gb/s。但是，随着 AMD、英特尔和其他厂商基于 PCIe 5.0 的 CPU 的广泛应用，现在已经可以实现 400 Gb/s 的网络速度，如果使用一些技巧，甚至可以绕过这一限制，支持每个端口 800 Gb/s 的速度，我们已经看到 Nvidia 在其最新的 ConnectX-8 和 BlueField SuperNIC 中做到了这一点。

当然，Nvidia 并不是唯一一家在 CPU 和 GPU 组合方式上不断创新的公司。AMD 的 MI300X 可以说更为复杂，它共同封装了三个计算芯片（共 24 个内核）、六个 CDNA 3 加速器和高达 128 GB 的 HBM3 内存。

这些芯片将为美国劳伦斯-利弗莫尔国家实验室的 El Capitan 系统提供动力，该系统最早可能在今年秋天亮相。该实验室确实提交了一些早期结果，但 "早期交付 "系统的峰值理论性能仅为 32 petaFLOPS，仅占整个系统的一小部分，而且提交的结果不包括功耗，因此很难判断这些芯片在 HPC 工作负载中的实际效率如何。

云系统的不足与挑战

尽管我们热切期待Livermore公司在提交完整El Capitan系统性能数据时能够透明地披露功耗情况，但并非所有企业都如此坦诚。

自去年11月以来，基于云的计算集群在Top500榜单上的出现愈发频繁，其中微软排名第三的Eagle系统尤为引人注目。然而，遗憾的是，这些提交的数据中，要么未能跟踪，要么未发布这些基准运行的功耗数据，使得评估这些机器的实际效率变得困难重重。

鉴于这些系统部署在更传统的数据中心，我们不禁对这些集群的能效产生怀疑。与联想、HPE和Eviden在超级计算机部署中普遍采用的经过高度调整的液冷机箱不同，驱动这些云系统的GPU节点通常采用风冷方式，这导致相当一部分电力最终被高转速风扇所消耗。

据透露，在这些高密度系统中，高达15%至20%的功耗用于风扇，即1500到2000瓦，这一数值大致相当于三个H100或MI250X高端加速器的功耗。与那些专门构建的高性能计算集群相比，这些云集群在能效方面显得颇为浪费。

微软和其他公司对于披露运行功耗数据的犹豫并不出人意料。云计算和超大规模企业历来对其系统、机架和数据中心的功耗需求避而不谈，因为他们的商业模式往往建立在这些微小的利润之上。

然而，对于那些致力于构建更高效集群的企业而言，数据的匮乏无疑成为了他们前进道路上的阻碍。

	联想提供一站式服务，宣布成立初创企业中心
	2022北京网络安全大会成功举办
	京东发布七大数智供应链应用场景
	到2026年盖茨基金会将提升年度赠款支出至90亿美元
	三星收缩采购，暂停订货至少8月底
	上海市人民政府办公厅印发数字经济发展规划
	推特测试自定义时间线新功能
	联想百应平台入选专精特新中小企业服务产品名录
	亚马逊云科技中国峰会即将召开
	希沃联合IIOE为尼泊尔、马来西亚高校捐赠智慧教室

Nvidia 的超级芯片Grace-Hopper 很节能！

Nvidia 的超级芯片Grace-Hopper 很节能！

热点

商情 查看更多…

Nvidia 的超级芯片Grace-Hopper 很节能！

Nvidia 的超级芯片Grace-Hopper 很节能！

热点

商情 查看更多…

商情查看更多…