以太网联盟和超以太网联盟推动以太网升级,助力人工智能和高性能计算

人工智能网络和更为庞大的数据中心应用正推动以太网通信技术的不断进步。
2024-04-02 16:52:54  |   作者:开源爱好者  |   来源:

以太网联盟和超以太网联盟推动以太网升级,助力人工智能和高性能计算

人工智能网络和更为庞大的数据中心应用正推动以太网通信技术的不断进步。
2024-04-02 16:52:54
作者:开源爱好者
来源:

人工智能工作负载、高性能计算(HPC)需求和可持续发展的倡议,正在推动科技行业努力重塑久负盛名的以太网生态系统。

以太网面临着提高规模、稳定性和可靠性的压力,这一压力已经导致了对超以太网联盟的更广泛的关注。

图片9.jpg

AMD、Arista、Broadcom、Cisco、Eviden、HPE、Intel、Meta和Microsoft于去年7月成立了超以太网联盟(UEC),其目的是汇集行业企业力量构建完整的基于以太网的高性能网络通信堆栈架构。自去年11月开始接受新成员以来,已有45家公司加入超以太网联盟。目前,有715名行业专家参与超以太网联盟的八个工作组。

超以太网联盟指导委员会主席J Metz在一份声明中表示:“人们迫切希望拥有一个开放、可访问的、基于以太网的网络,专门设计用于满足人工智能和高性能计算工作负载的要求。这种程度的参与令人鼓舞,有助于我们实现广泛的互操作性和稳定性的目标。”

超以太网联盟技术咨询委员会主席Uri Elzur表示,联盟的想法并不是提出一项新技术,然后让大家等7年才看到它在市场上出现。

采用超以太网联盟的方法,“客户可以使用大家今天都在部署的现有以太网交换机,超以太网联盟的技术可以在这些交换机之上运行,并利用以太网在链路和端点级别已经拥有的所有创新。”Elzur说,“因此,他们下次做出购买决定时,可以考虑我们将提供的一些可选功能,这些功能将完全符合以太网标准,他们将能够使用所有现有工具与其协同工作。”

UEC 1.0版本

制定UEC规范的工作正在按照该组织非常紧凑的时间表进行,预计1.0版本将于2024年第三季度发布。UEC 1.0概述解释了该组织即将发布的规范的一些优先事项。

“即使考虑到使用以太网的优势,我们仍然可以也应该进行改进,”UEC表示。“网络必须不断发展,以便更好地为未来网络规模的不断扩大和带宽的不断提高提供前所未有的性能。最重要的是,网络必须尽快向所有参与端点发送消息,即使对于少数端点也不能有长时间的延迟。”

例如,UEC提到在AI模型训练中需要最小化“尾部延迟”:“训练涉及频繁的计算和通信,其中下一阶段的训练开始取决于整个GPU套件中通信阶段的完成。最后一个到达的消息决定了所有GPU的进度。这种尾部延迟——由通信阶段中最后一个消息到达的时间来衡量——是系统性能的一个关键指标。”

为了降低尾部延迟,UEC规范将解决下一代应用的关键网络需求,包括:

  多路径和包喷射

  灵活的交付顺序

  现代的拥塞控制机制

  端到端遥测

  更大的规模、稳定性和可靠性

“最后一点给前面所有的要求都增加了额外的负担,”UEC表示。“高性能系统几乎没有犯错的空间,这在更大的网络中更是如此。随着系统的增长,确定性和可预测性变得更加困难,因此需要新的方法来实现整体稳定性。”

UEC正在努力解决的另一项挑战是,为AI和高性能网络建立支持集群间多条通信路径的能力。

“尽管我们现在已经有了多路径通信,但我们通常只使用一条网络高速公路进行互联。因此,如果那里出了问题,整个系统就会慢下来,” Elzur说,“我们需要启用一个拥有多条网络高速公路的系统,这些高速公路我们可以随时使用,而且它们都必须时刻保持畅通。”

以太网联盟发布2024年路线图

AI网络也进入了另一个组织的年度路线图。在最新发布的《2024年以太网路线图》中,以太网联盟将AI/ML称为以太网行业的新杀手级应用。

以太网联盟主席Peter Jones表示,以太网正在不断进化,以满足市场对AI/ML服务和其他应用的需求,继续向更高速接口、更广泛的互连选项和更高效的电源效率发展。

Jones还补充说,在现有InfiniBand操作中使用以太网存在许多问题。“对我来说,真正的问题是:你需要保留多少旧的东西才能有效地替代或替代今天正在做的事情?理想情况下,新技术应该能够做到旧技术所做的一切,而且做得更好、更便宜。” Jones说。

“这里更大的变化将围绕诸如负载均衡等工作,以及运行在其上的协议,使事务协同工作。” Jones说。

可持续性也是以太网行业的一个热门话题,以太网联盟在其2014年路线图中强调了这一点。Jones表示,如果你看看数据中心设备和网络,网络用电比例一直在增加。“你会达到这样一个阶段,即你无法归咎于机架,因为你已经消耗了所有的电力和所有的冷却能力,”Jones说。“以太网面临的大问题是,我们如何增加服务并减少电力消耗?最终,关注效率和有效性将为我们带来更好的产品。”

2024年光纤通信会议

在本周举行的2024年光纤通信(OFC)会议和展览上,成员们展示了以太网联盟的核心路线图方向中的几个:在速度高达800 GbE的以太网的多厂商互操作性和可靠性。

以太网联盟在OFC会议上安装了Arista、Cisco、Juniper、Marvell、Sprirent、Synopsis等公司的一系列交换机、路由器和互连设备,接口包括OSFP、QSFP-DD、QSFP和SFP可插拔外形规格。该演示还展示了测试和测量产品,包括物理层和流量生成工具,用于确保以太网能够适应最苛刻的应用需求。

根据思科网络、数据中心和提供商连接组织的高级副总裁兼总经理Kevin Wollenweber的说法,数据中心应用正需要以太网进行这样的变革。

Wollenweber表示:“毫无疑问,数据中心流量的持续增长正推动着对高容量和高度智能化数据中心网络解决方案的需求。随着以太网在企业数据中心中的普及,以及速度提升至400G、800G,并最终迈向1.6T的愿景,以太网将继续成为企业运行几乎所有应用的网络。我们看到,无论是生成模型还是训练模型,人工智能都是推动增长的主要动力之一。除了AI/ML,还有许多应用可以充分利用更高的以太网速度。这些应用包括高性能计算和特定应用,尤其是存储应用。”

根据Wollenweber的说法,以太网未来增长的其他驱动力包括:

媒体内容提供商和广播商可以利用以太网来满足对更多内容和丰富媒体体验的不断增长的需求,包括更多的摄像头信号、更高分辨率的4K和8K视频以及虚拟现实功能。

应用和IP存储(NSF、iSCSI或类似技术)流量在同一网络上的融合增加了带宽需求。企业正在使用更多的IP存储,并将他们的数据网络融合成一个现代化的数据中心网络,该网络由以太网驱动,能够处理拥塞并为他们的应用提供无阻带宽。

随着图像分辨率的提高,以太网还将支持新兴的多人在线云游戏和实时视频翻译应用。

最近,有媒体表示,以太网网络速度将继续以快速的增长率提升,以跟上AI和机器学习工作负载的步伐。2024年初的1.6TbE演示表明,以太网正在跟上AI/ML网络需求的发展步伐,据预测,到2030年,1.6TbE解决方案将成为主导的端口速度。

同样,Dell'Oro Group 表示,到 2027 年,近一半的数据中心交换机端口将由 400G 及更高速度驱动,预计 800G 将在 2025 年超越 400G。