IBM 发布下一代大型机芯片Telum II,助力大规模人工智能

IBM 发布了用于其大型机系统上的新一代处理器,承诺在芯片上实现增强的 AI 推理加速,并集成数据处理单元(DPU)以提升输入输出(IO)处理能力。
2024-08-29 17:36:04  |   作者:开源爱好者  |   来源:

IBM 发布下一代大型机芯片Telum II,助力大规模人工智能

IBM 发布了用于其大型机系统上的新一代处理器,承诺在芯片上实现增强的 AI 推理加速,并集成数据处理单元(DPU)以提升输入输出(IO)处理能力。
2024-08-29 17:36:04
作者:开源爱好者
来源:

IBM 发布了用于其大型机系统上的新一代处理器,承诺在芯片上实现增强的 AI 推理加速,并集成数据处理单元(DPU)以提升输入输出(IO)处理能力。

图片1.jpg

此外,还推出了一款独立的 AI 加速器,旨在支持更大规模的推理。这款名为 Telum II 的处理器在Palo Alto举行的 Hot Chips 2024 大会上发布。IBM 介绍,它将为大型机带来显著的性能提升。该公司还展示了 Spyre AI 加速器的预览版,并表示这两款芯片预计将于 2025 年上半年随下一代 IBM Z 系统一同推出。

IBM 表示,全球约 70% 的金融交易都通过其大型机完成,并指出在 Hot Chips 上展示的这些进展将使其能够将生成式 AI 引入这些关键任务负载。

Telum II 是一款八核芯片,与其前身相同,但新款芯片以更高的 5.5GHz 时钟速度运行。该芯片配有十个 36 MB 二级缓存,每个核心一个,DPU 一个,第十个为整体芯片缓存。IBM 表示,随着虚拟 L3 和虚拟 L4 分别扩展到 360 MB 和 2.88 GB,缓存大小增加了 40%。

第一款 Telum 处理器在 2022 年随 z16 推出时,将内置 AI 推理引入其中。它能够在对金融交易进行处理的同时,实时执行欺诈检测检查。

IBM 表示,已显著增强了 Telum II 处理器上的 AI 加速器功能,达到每秒 24 万亿次操作(TOPS)。但TOPS 可能是一个误导性的指标。虽然已添加对 INT8 数据类型的支持,但 Telum II 本身旨在使模型运行时能够与要求最苛刻的企业工作负载并行运行。

片上 DPU 的增加是为了满足日益增长的工作负载需求,特别是针对未来的 AI 工作负载以及即将推出的 Z 系统 Spyre 加速器。

据Armonk公司介绍,每个 DPU 包括四个处理集群,每个集群有八个可编程微控制器和一个 IO 加速器,该加速器管理这些处理集群以及两个 IO 抽屉域的 IO 子系统。DPU 还具有单独的 L1 缓存和请求管理器,以跟踪未完成的请求。

DPU 位于主处理器结构和 PCIe 结构之间。像这样直接将其附加到结构上的目的是大幅减少数据传输的开销,同时提高吞吐量和能效。

IBM 表示,作为最大配置,未来的 Z 系统可能配备多达 32 个 Telum II 处理器和 12 个 IO 机笼,其中每个机笼最多有 16 个 PCIe 插槽,从而使系统能够支持最多 192 个 PCIe 卡,极大地扩展了 IO 容量。

Spyre 加速器将包含 32 个核心,其架构与集成到 Telum II 芯片本身的 AI 加速器类似。IBM Z 可以通过 PCIe 配置多个 Spyre 加速器,以便根据需要扩展 AI 加速。例如,八张卡组成的集群将为单个 IBM Z 系统增加 256 个加速器核心。

Telum II 和 Spyre 加速器都旨在支持 IBM的集成 AI,IBM 将其描述为使用多个 AI 模型来提高预测的性能和准确性,而单个模型则无法做到这一点。

IBM Z 和 LinuxONE 产品管理副总裁Tina Tarquinio在一份声明中表示:“Telum II 处理器和 Spyre 加速器旨在提供高性能、安全且更高效的企业计算解决方案。”

她补充道:“经过数年的研发,这些创新将在我们下一代IBM Z平台上推出,以便客户能够大规模利用大型语言模型(LLMs)和生成式人工智能(AI)。”

IBM正寻求在其主机上执行微调,甚至可能进行模型训练。这将允许银行和其他希望将数据安全地保存在自己场所的企业等客户,在其组织内部完全训练和部署模型。

Telum II和Spyre加速器都将由三星为IBM制造,采用5纳米工艺。