思科为AI负载持续改进数据中心网络

思科收购Splunk以及与英伟达建立合作伙伴关系,是其为构建支持人工智能和机器学习工作负载的数据中心网络基础设施所做努力的一部分。
2024-03-26 14:03:29  |   作者:开源爱好者  |   来源:

思科为AI负载持续改进数据中心网络

思科收购Splunk以及与英伟达建立合作伙伴关系,是其为构建支持人工智能和机器学习工作负载的数据中心网络基础设施所做努力的一部分。
2024-03-26 14:03:29
作者:开源爱好者
来源:

就在不久前,改造数据中心网络以应对人工智能工作负载的想法还只停留在构想阶段。然而,过去一年间,情况发生了翻天覆地的改变。

图片1.jpg

“尽管人工智能和机器学习早已进入我们的视野,但过去约18个月里,我们目睹了显著的投资增长与市场发展,特别是在生成式人工智能领域。我们预计,到2024年,更多企业的数据中心将采用新工具和技术来推动人工智能基础设施的进步,使他们能更迅速、更深入地挖掘数据中的价值。”思科高级副总裁兼总经理Kevin Wollenweber表示。他进一步指出,企业也将能“更好地应对这些工作负载”。

思科近期的一系列动作无疑证明了人工智能在企业层面的快速增长。

例如,最近完成的思科280亿美元收购Splunk的交易,预计将推动人工智能在思科的安全和可观察性产品组合中的应用。同时,思科与英伟达新签署的协议将带来集成的软件和网络硬件,有望帮助客户更轻松地构建支持人工智能应用的基础设施。

作为合作的一部分,英伟达的最新Tensor Core GPU将应用于思科的M7统一计算系统(UCS)机架和刀片服务器,包括UCS X系列和UCS X系列Direct,以支持数据中心和边缘的AI及数据密集型工作负载。该集成包还将包括英伟达AI Enterprise套件,该软件提供预先训练的模型和用于生产就绪的人工智能开发工具。

“英伟达联盟实际上是一个深度的工程合作伙伴关系,我们正与英伟达共同构建解决方案,以便让我们的客户——企业和服务提供商——能更轻松地使用人工智能技术。”Wollenweber表示。他们提供的技术将提高人工智能的生产力,并将包括一套用于构建、监控和故障排除网络架构的工具集,以确保其运行尽可能高效。Wollenweber说:“将这项技术推向企业是这一合作伙伴关系未来增长的关键方向。”

人工智能加速网络投资

业内观察人士指出,更大的网络带宽将是人工智能部署的必然要求。

根据研究公司IDC的数据,随着企业和服务提供商需要越来越快的以太网交换机来支持迅速成熟的人工智能工作负载,以太网交换机市场中数据中心部分的收入在2023年增长了13.6%。IDC分析师Brandon Butler在一篇文章中提到200/400GbE交换机在2023年全年的收入增长了68.9%。

“2023年以太网交换机市场深受人工智能影响,整体市场在2023年增长了20.1%,达到442亿美元。” Butler说。

Dell'Oro集团最近也撰文介绍了人工智能网络将如何加速向更高速度过渡。Dell'Oro集团副总裁Sameh Boujelbene写道:“例如,到2025年,预计800 Gbps将占据人工智能后端网络中端口的大多数,这距离最新800 Gbps产品问世仅两年时间。”

“虽然大多数市场需求将来自一级云服务提供商,但预计二级/三级和大型企业也将占据重要地位,未来五年内将接近100亿美元,后者将更青睐以太网。”布朱尔本表示。

Wollenweber表示,以太网已经获得了大量投资并迅速发展。“我们已经从100G发展到400G,再到800G,现在我们正在构建1.6TbE以太网,它也是数据中心其余部分的主要网络技术。”Wollenweber说。

据媒体报告称,为了跟上人工智能和机器学习(ML)工作负载,网络速度将继续以极快的速度增加。2024年初的1.6TbE以太网演示表明,以太网正跟上人工智能/机器学习网络需求。据预测,到2030年,1.6 TbE解决方案将成为主流的端口速度。

以太网与人工智能的融合

以太网是当前大多数企业数据中心网络的基础。因此,当企业考虑为人工智能工作负载添加基于GPU的系统时,坚持使用以太网是合理的选择。IT和工程人员熟悉以太网,他们可以从以太网技术中获得一致的性能,并将这些人工智能计算节点集成在一起,Wollenweber说。

“人工智能/机器学习工作负载或任务——例如使用大型数据集的不同类型学习——可能需要分布到多个GPU上,作为人工智能/机器学习集群的一部分,通过并行处理来平衡负载,”Wollenweber在一篇关于人工智能网络的博客中写道。

“为了快速提供高质量的结果——特别是针对训练模型——所有的人工智能/机器学习集群都需要通过支持无阻塞、低延迟、无损耗结构的高性能网络进行连接,”Wollenweber进一步写道。“尽管计算强度较低,但在边缘数据中心运行人工智能推理也将涉及对网络性能、规模和延迟控制的要求,以帮助向大量最终用户快速提供实时见解。”

Wollenweber指出,采用RoCE能显著提升计算和存储流量的吞吐量,并有效减少延迟。其中,RoCEv2允许在不依赖CPU的情况下直接访问远程主机内存,进一步提升了效率。

“RoCEv2以太网结构经过优化,完美适配广泛使用的标准技术驱动的AI/ML集群。它让以太网数据中心迁移更为便捷,实现了每比特更低成本的可扩展性,并配备了先进的拥塞管理功能,有助于智能控制延迟和损失。” Wollenweber详细写道。

谈及思科的AI基础设施,客户对更高效的运营工具需求迫切,以助力GPU间AI/ML工作负载的调度。在这方面,思科推出了Nexus Dashboard等工具,以满足市场需求。

“如何让客户更轻松、更高效地调整以太网网络,并实现大规模计算的高效连接,这正是我们当前的关注焦点。” Wollenweber分享道。

思科近期的一系列动态,无疑是在其前期工作的基础上,进一步明确了AI数据中心的发展方向。例如,去年夏天,思科发布了一份蓝图,详细阐释了组织如何利用现有数据中心以太网网络支持AI工作负载。

该蓝图的核心在于Nexus 9000数据中心交换机。思科在《AI/ML应用数据中心网络蓝图》中强调:“这些交换机如今已集成先进的硬件和软件功能,能够提供满足AI/ML应用需求的低延迟、高效的拥塞管理机制和遥测功能。结合Cisco Nexus Dashboard Insights等可视化工具和Nexus Dashboard Fabric Controller等自动化工具,Cisco Nexus 9000交换机已成为构建高性能AI/ML网络结构的理想之选。”

此外,思科AI网络基础设施的另一大亮点是其高端可编程Silicon One处理器,它专为大型企业和超大规模公司的AI/ML基础设施而设计,展现出强大的应用潜力。