Nvidia 的超级芯片Grace-Hopper 很节能!
Nvidia 的超级芯片Grace-Hopper 很节能!
作者:开源爱好者
来源:
尽管人们对数据中心能耗飙升的担忧与日俱增,但今年春季发布的全球最具可持续发展能力的公开超级计算机Green500排名揭示了一个积极的现象:人工智能热潮背后的高能耗加速器同样推动了能效的大幅提升。 在排名最节能的十个系统中,有七个采用了英伟达的GPU,且包括前三名在内的一半系统均选用了英伟达的Grace-Hopper超级芯片(GH200)。 从高层次上讲,这些芯片将基于Arm Neoverse V2设计的72核Grace CPU与480GB LPDDR5x内存和H100 GPU完美结合。其中,H100 GPU采用高速NvLink芯片对芯片连接,并配备96GB至144GB HBM3或HBM3e内存。 Nvidia称,随着Alps机器的首次亮相,GH200现已成为Nvidia以HPC为中心的部署的核心,甚至在Top500最强大的10个公开已知系统中占据一席之地。事实上,Alps之前的测试平台以64.4 gigaFLOPS/watt的效率在Green500排行榜上名列第五。然而,这还不是GH200所能达到的最佳水平。 排名第一的是德国的Jedi系统,该系统是GH200和SiPearl Rhea驱动的Jupiter机器的前身,预计在今年晚些时候建成后将成为欧洲首个超大规模系统。较小的Jedi系统能够达到高达72.7 GFLOPS/瓦的能效。 配置相近的Isambard-AI Phase 1和Helios GPU系统紧随其后,分别以68.8和66.9 GFLOPS/瓦的能效表现位列其后。除了Isambard系列采用了更大的机器(特别是19.14 petaFLOPS的Helios GPU系统)之外,两者与Jedi系统的关键区别在于,这两台计算机使用的是HPE的Slingshot-11互连技术,而Jedi则依赖于Nvidia自家的InfiniBand NDR200网络。 无论如何,与两年前相比,这些数据均显著体现了系统效率的大幅提升。 2022年初,Green500上效率最高的系统是Frontier TDS测试平台,作为同年Top500排名第一的1.2 exaFLOPS Frontier机器的缩小版,它展现了出色的能效。事实上,完整的Frontier系统以52.2 GFLOPS/瓦的成绩位列第二,仅次于试验台的62.7 GFLOPS/瓦。 需要明确的是,扩展计算能力是一项复杂的任务,随着系统规模的扩大,效率问题往往难以避免。这也是为何效率最高的系统往往规模较小的原因之一。 2022年的Frontier和Frontier TDS,以及今年春季Green500中基于GH200的系统,都印证了这一点。前Alps系统的GFLOPS/watt值为64.8,而完整的Alps系统仅为52,在效率方面与Frontier不相上下。 在今年春季的Green500评选中,基于AMD Instinct的系统也进一步下滑。在效率最高的前十款超级计算机中,仅有三款采用了AMD的加速器,包括第七名的Frontier TDS、第九名的Adastra和第十名的Setonix GPU。 据说,在这些高密度系统中,15% 到 20% 的功耗可直接归因于风扇,即 1500 到 2000 瓦,大致相当于三个 H100 或 MI250X 高端加速器。与专门构建的高性能计算集群相比,这些云集群可能显得相当浪费。 所有这些系统都采用共同的架构,由 AMD 的第三代 Epyc Milan 处理器、MI250X GPU 和 HPE 的 Slingshot-11 互连提供动力。两年前,在 FLOPS/watt 方面,AMD 的部件还是最先进的,而现在 Nvidia 已经明显领先。 GH200突破带宽瓶颈 GH200 的强劲性能体现了高度集成封装设计的优势。超级芯片的 NvLink-C2C 互连技术将 CPU 和 GPU 连接起来,实现了两者之间高达 900 GB/s 的高效通信。这比目前 PCIe 5.0 x16 接口所能达到的 128 GB/s 速度有了大幅提升,当然也比这些集群中常见的 200 Gb/s 互连结构要好得多。 说到高性能计算和人工智能,带宽无论是在网络层面、插座层面,还是在计算和内存层面,都是一个始终存在的瓶颈,每一代产品都必须重新评估。因此,Nvidia 的 GH200 如此高效也就不足为奇了。 这表明,采用更快的网络设备后,我们可能会看到效率的提高。直到最近,基于 PCIe 4.0 的 CPU 还将互连带宽限制在每个端口 200 Gb/s。但是,随着 AMD、英特尔和其他厂商基于 PCIe 5.0 的 CPU 的广泛应用,现在已经可以实现 400 Gb/s 的网络速度,如果使用一些技巧,甚至可以绕过这一限制,支持每个端口 800 Gb/s 的速度,我们已经看到 Nvidia 在其最新的 ConnectX-8 和 BlueField SuperNIC 中做到了这一点。 当然,Nvidia 并不是唯一一家在 CPU 和 GPU 组合方式上不断创新的公司。AMD 的 MI300X 可以说更为复杂,它共同封装了三个计算芯片(共 24 个内核)、六个 CDNA 3 加速器和高达 128 GB 的 HBM3 内存。 这些芯片将为美国劳伦斯-利弗莫尔国家实验室的 El Capitan 系统提供动力,该系统最早可能在今年秋天亮相。该实验室确实提交了一些早期结果,但 "早期交付 "系统的峰值理论性能仅为 32 petaFLOPS,仅占整个系统的一小部分,而且提交的结果不包括功耗,因此很难判断这些芯片在 HPC 工作负载中的实际效率如何。 云系统的不足与挑战 尽管我们热切期待Livermore公司在提交完整El Capitan系统性能数据时能够透明地披露功耗情况,但并非所有企业都如此坦诚。 自去年11月以来,基于云的计算集群在Top500榜单上的出现愈发频繁,其中微软排名第三的Eagle系统尤为引人注目。然而,遗憾的是,这些提交的数据中,要么未能跟踪,要么未发布这些基准运行的功耗数据,使得评估这些机器的实际效率变得困难重重。 鉴于这些系统部署在更传统的数据中心,我们不禁对这些集群的能效产生怀疑。与联想、HPE和Eviden在超级计算机部署中普遍采用的经过高度调整的液冷机箱不同,驱动这些云系统的GPU节点通常采用风冷方式,这导致相当一部分电力最终被高转速风扇所消耗。 据透露,在这些高密度系统中,高达15%至20%的功耗用于风扇,即1500到2000瓦,这一数值大致相当于三个H100或MI250X高端加速器的功耗。与那些专门构建的高性能计算集群相比,这些云集群在能效方面显得颇为浪费。 微软和其他公司对于披露运行功耗数据的犹豫并不出人意料。云计算和超大规模企业历来对其系统、机架和数据中心的功耗需求避而不谈,因为他们的商业模式往往建立在这些微小的利润之上。 然而,对于那些致力于构建更高效集群的企业而言,数据的匮乏无疑成为了他们前进道路上的阻碍。 |