Juniper强化网络对AI负载的支持能力

瞻博网络(Juniper)对其PTX和QFX平台进行了升级,以支持800G以太网,随着以太网成为AI网络的首选技术,其势头正在增强。
2024-02-28 18:31:20  |   作者:开源爱好者  |   来源:

Juniper强化网络对AI负载的支持能力

瞻博网络(Juniper)对其PTX和QFX平台进行了升级,以支持800G以太网,随着以太网成为AI网络的首选技术,其势头正在增强。
2024-02-28 18:31:20
作者:开源爱好者
来源:

瞻博网络(Juniper)正在完善其策略,以在数据中心、企业的AI网络方案中为其路由器增加更多功能。这些增强功能主要针对公司的PTX路由和QFX交换平台,这些平台已装备支持800G以太网,以应对未来基于以太网的AI网络环境面临的挑战。

图片3.jpg

瞻博网络产品营销与战略高级总监Julius Francis表示:“我们的800GE平台旨在有效管理AI训练工作负载。我们现在正在扩展800GE平台的功能,以满足更广泛的广域网用例需求,同时提高可扩展的网络容量和密度。”

Francis表示:“对于服务提供商、云提供商和大型企业来说,在满足流量需求的同时实现可持续性和自动化的目标是一个持续的挑战。这些实体通常很难在各种拥塞点,例如城域聚合、对等、核心网络、数据中心互联(DCI)和DCI边缘,提供所需的容量和规模。实现最佳的GPU效率以减少作业完成时间对于管理企业和云提供商的AI成本至关重要。”

“传统上,InfiniBand一直是AI网络生态系统中的首选网络技术,以其性能而闻名,但由于其成本较高且相比于全球最普遍的二层(L2)技术而言可用性有限,因此受到了阻碍。” Francis说。

瞻博网络现在其PTX和QFX平台上提供基于以太网的替代方案,支持400GE和800GE选项,并通过Apstra AIOps进行增强。Apstra是瞻博网络基于意图的数据中心软件,可实时维护配置、遥测、安全和验证信息的存储库,以确保网络符合组织的期望。

最近,瞻博网络加强了Apstra与其基于AI的网络平台之间的联系,该平台以供应商基于云的、自然语言的Mist AI和Marvis虚拟网络助手(VNA)技术为基础。

瞻博网络预计,运行Junos操作系统的PTX和QFX平台将成为其AI网络努力的前沿。由于支持高基数路由架构、深度缓冲区和基于单元的交换结构,它们将成为AI数据中心网络设置中主干或叶节点角色的理想选择。

PTX和QFX平台针对AI数据中心网络的其他功能包括:高效、深度缓冲的接口;可扩展的基于单元的架构;虚拟输出队列(VOQ)调度;收敛以太网上的RDMA(RoCEv2);自适应负载均衡;以及集成的IPFIX和带内网络遥测元数据(INT-MD)。瞻博网络的PTX设备还支持IP over Dense Wavelength Division Multiplexing(IPoDWDM),这是公司Converged Optical Routing Architecture(CORA)的一部分。

瞻博网络产品管理副总裁Amit Bhardwaj在一篇关于AI网络方向的博客中写道:“从传统的、孤立的IP和光控制平面转向收敛的网状架构,可以极大地提高网络利用率和可持续性。CORA简化了网络层,释放了未使用的WDM容量,并在许多应用中消除了对外部转发器的需求——实现了高达54%的节能和55%的低碳排放。”

思科和Arista都在开发AI网络

预计瞻博网络将成为AI网络领域的关键参与者,竞争对手思科和Arista也在继续开发技术来处理AI工作负载。

思科AI蓝图的核心组件是其Nexus 9000数据中心交换机,该交换机每个ASIC芯片支持高达25.6Tbps的带宽,并具有“当今可用的硬件和软件功能,以提供正确的延迟、拥塞管理机制和遥测,以满足AI/ML应用的要求”,思科在其《针对AI/ML应用的数据中心网络蓝图》中写道,“结合诸如思科Nexus Dashboard Insights进行可视化以及Nexus Dashboard Fabric Controller进行自动化的工具,思科Nexus 9000交换机成为构建高性能AI/ML网络结构的理想平台。”

思科AI网络基础设施的另一个组成部分是其新的高端可编程Silicon One处理器,该处理器针对企业和超大规模企业的AI/ML基础设施。Silicon One系统的核心是支持增强的以太网功能,例如改进的流量控制、拥塞感知和避免。该系统还包括先进的负载均衡功能,该功能将流量分散到多个GPU或交换机上,以避免拥塞并提高延迟。据思科称,基于硬件的链路故障恢复还有助于确保网络以最高效率运行。

将这些增强的以太网技术结合起来并更进一步,最终可以让客户设置思科所称的Scheduled Fabric。在Scheduled Fabric中,物理组件(芯片、光学器件、交换机)像一个大型模块化底盘一样被捆绑在一起,并相互通信,以提供最佳调度行为和更高的带宽吞吐量,尤其是对于AI/ML等流量,思科表示。

与此同时,Arista公布了名为AI Spine的AI网络技术。它受Arista EOS控制,使用具有深度数据包缓冲区和网络软件的数据中心交换机来有效控制AI流量。

Arista的AI Spine基于其7800R3系列数据中心交换机,该交换机在高端支持460Tbps的交换容量和数百个40Gbps、50Gbps、100Gbps或400Gbps接口,以及384GB的深度缓冲。Arista称,AI Spine系统将创建基于以太网的高带宽、无损耗、低延迟网络,最终可以以100Gbps、400Gbps和800Gbps的速度连接数千个GPU。

打造开放标准、可互操作的以太网

瞻博网络的Francis谈到了当下竞争格局:“管理相对较少的大型流量(这是AI工作负载的典型特征)对于依赖单流负载均衡的传统网络设计来说是一个重大障碍。高效的负载均衡和有效的拥塞管理协议对于支持AI训练工作负载背后的网络架构至关重要。未检测或未解决的网络瓶颈和效率低下可能会导致AI基础设施产生大量成本。”

Francis说:“虽然存在专有的、计划性的以太网架构解决方案来增强负载均衡,但它们带来了一系列操作和可见性挑战,更不用说与InfiniBand架构类似的供应商锁定了。解决AI网络挑战的最有效策略是利用开放标准、可互操作的以太网架构。这种方法优先考虑网络操作的改进,以专门满足各种AI工作负载类型的不同需求。”

“无论是以固定形式实现,还是适用于多平面、多阶段Clos架构或高基Spine-Leaf拓扑的大型机架式交换机,以太网都为数据中心技术提供了最具成本效益和灵活性的解决方案。” Clos是瞻博网络为建立大型数据中心和以太网而采用的架构。它利用瞻博网络的EVPN-VXLAN结构提供了更高的网络可扩展性和分段性。

“作为一种融合技术,以太网架构支持多厂商集成和运营,提供一系列设计选项,以实现AI数据中心及其更广泛的AI基础设施后端网络所需的性能、弹性和成本效率的平衡。”

瞻博网络的AI技术是HPE最近表示将以140亿美元收购瞻博网络的核心原因之一。两家公司表示,网络将成为HPE混合云和AI解决方案的新核心业务和架构基础,这些解决方案将通过公司的GreenLake混合云平台提供。

根据两家公司的说法,合并后的公司将提供基于云、高性能和体验优先的端到端AI原生安全解决方案,并将有能力收集、分析更广泛的已安装设备上的聚合遥测数据,进而采取行动。该交易预计最迟将于2025年初完成。