思科推出基于以太网的人工智能网络
思科推出基于以太网的人工智能网络
作者:开源爱好者
来源:
无论是现在还是未来,思科都希望以太网一直是人工智能网络的主要支撑,并以此作为自己的使命。 多年来,思科为IEEE的以太网发展做出了巨大的贡献,现在它是推动超以太网联盟(UEC)的核心供应商之一,UEC是一个致力于开发以太网的物理、链路、传输和软件层进步,从而使其更有能力支持AI基础设施的组织。 思科云网络、Nexus&ACI产品线产品管理副总裁Thomas Scheibe表示:“企业正坐拥海量数据,试图让这些数据更容易获取,并更快地从中获得价值,他们现在正在关注人工智能技术。” “客户想知道他们现在需要在网络方面做些什么,以便能够运行他们所需的庞大GPU集群并处理他们创建的大量数据。对于大多数客户来说,答案将是以太网。” 为此,思科制定了一份蓝图,定义了组织如何使用现有的数据中心以太网来支持人工智能工作负载。 Nexus 9000的高级特性 思科AI蓝图的一个核心组件是Nexus 9000数据中心交换机,它每个ASIC芯片能支持高达25.6Tbps的带宽,并且“拥有当今可用的硬件和软件功能,可以提供适当的延迟,拥塞管理机制和遥测,以满足AI/ML应用程序的要求。”思科在其AI/ML应用程序的数据中心网络蓝图中写道。 再加上思科Nexus Dashboard Insights(用于可视性)和Nexus Dashboard Fabric Controller(用于自动化)等工具,思科Nexus 9000交换机成为构建高性能AI/ML网络结构的理想平台。” Scheibe表示,支持实现Nexus AI网络的两项技术是交换机的NX-OS操作系统支持的通过融合以太网2(ROCEv2)进行远程直接内存访问和显式拥塞通知(ECN)。 ROCEv2是一种高性能网络计算技术,它允许数据直接在两台设备的内存之间传输,而无需服务器CPU介入。它允许在单个连接上同时传输或路由多个数据包,以减少延迟和复杂性,并提高吞吐量。 ECN可以实现无损以太网络,它通过监控网络拥塞或其他可能导致数据包丢失的情况,并对网络进行节流以确保不会发生丢包。Scheibe指出,无损以太网不仅是人工智能网络的关键要求,也是当今VoIP或视频环境的关键要求。 另一个工具优先流控制可以在第3层网络帮助控制拥塞,并在整体拥塞管理中发挥重要作用。 Scheibe说,综合起来,这些技术可以使以太网能够优先处理某些工作负载,例如不能容忍任何丢包的人工智能工作负载,即使存在拥塞,也将始终获得网络优先级。 “这些技术现在可以在Nexus网络中实现,客户可以调整他们的环境来处理他们的工作负载组合。”Scheibe说。“目前正在进行的工作是处理更大、更多的人工智能工作负载,还有其他技术可以用来确保客户能够轻松地在可用带宽上分配它们。” 思科还发布了脚本,以便客户可以在整个网络中自动设置该结构并简化配置,Scheibe说。 此外,Nexus 9000交换机具有内置遥测功能,可用于关联网络中的问题,并帮助优化RoCEv2传输。 思科Nexus 9000系列交换机通过流表和流表事件提供硬件流遥测信息。有了这些功能,通过交换机的每个数据包都可以被解释、观察,并与微突发或数据包丢失等行为相关联。根据思科的说法,客户可以将这些数据导出到思科Nexus Dashboard Insights管理包中,并显示每个设备、每个接口、每个流级别的数据。 Silicon One处理器 思科人工智能网络基础设施的另一个组成部分是其新型高端可编程Silicon One处理器,该处理器旨在为企业和超大规模企业提供大规模人工智能/机器学习基础设施。 随着5nm 51.2Tbps的Silicon One G200和25.6Tbps的G202的推出,思科的Silicon One家族已有15个成员。这些处理器可以根据单个芯片组的路由或切换进行定制,从而消除了为每个网络功能使用不同硅架构的需求。这是通过一个通用的操作系统、P4可编程转发代码和一个SDK来实现的。 思科表示,新设备位于Silicon One系列的顶端,将带来网络增强功能,使其成为要求苛刻的AI/ML部署或其他高度分布式应用的理想选择。 Silicon One系统的核心是它对增强的以太网特性的支持,例如改进的流量控制、感知和避免拥塞。 该系统还包括先进的负载平衡能力和“数据包分散”功能,可以将流量分散到多个GPU或交换机上,以避免拥塞并改善延迟。思科表示,基于硬件的链路故障恢复也有助于确保网络以最高效率运行。 将这些增强的以太网技术结合起来,并进一步发展,最终让客户建立起思科所说的“Scheduled Fabric”架构。思科表示,在“Scheduled Fabric”中,物理组件——芯片、光学器件、交换机——像一个大的模块化机箱一样捆绑在一起,并相互通信,以提供最佳的调度行为和更高的带宽吞吐量,特别是对于AI/ML这样的流量。 可持续的数据中心 虽然如今人工智能应用似乎无处不在,但数据中心网络运营仍然面临其他挑战。例如,客户希望有效地扩展现有的数据中心网络,以处理更大的工作负载,因此需要找到将400G集成到网络中的最佳方法。 Scheibe表示,另外两个主要的挑战是减少数据中心的电力消耗和增加可持续性。各公司正在寻求方法来了解目前使用了多少能源和产生的碳排放量,以便他们能够就发展方向做出明智的决定。思科Nexus云提供的网络能源利用率服务解决了这一问题,让客户了解数据中心对环境的影响。 最近,思科宣布,Nexus Dashboard将提供数据中心所有IT设备功耗的实时和历史洞察,并估计数据中心运营的能源使用情况。 Nexus Dashboard还将提供AI Data Center Blueprint(人工智能数据中心网络蓝图),这将为希望开发基于人工智能的应用程序的企业提供一种建立网络以处理额外事务负载的方法。例如,它将详细介绍如何实现从InfiniBand到以太网的迁移和大规模的机器学习网络。 |