富士通新型中间件能使运行AI工作负载的GPU计算效率翻倍
富士通新型中间件能使运行AI工作负载的GPU计算效率翻倍
作者:开源爱好者
来源:
富士通正在实验一款新型中间件,它有望使人工智能工作负载的GPU计算效率提高两倍多,该公司设计这项技术正是为了解决与AI计算需求相关的GPU限制和短缺问题。 这款面向全球客户发布的中间件旨在改善使用AI的各种平台和应用中的资源分配和内存管理。富士通已经与各种合作伙伴进行了定点试验,并计划本月开始更多技术试验。 富士通表示,自5月起,该公司已开始与AWL、Xtreme-D和Morgenrot测试其新型中间件,结果显示,在运行AI工作负载时,计算效率提高了多达2.25倍。合作伙伴还发现,在使用该中间件时,不同云环境和服务器上同时处理的AI进程数量大幅增加。 Morgenrot的CTO伊藤久志(Hisashi Ito)在新闻稿中表示:“与在两个GPU上顺序运行作业相比,通过实现多个作业之间的GPU共享,我们的整体执行时间减少了近10%,效果显著。这种并行处理能力能够在有限资源内同时执行长时间的模型构建训练任务和较短的推理/测试任务。” 富士通表示,本月Tradom也将开始使用该新产品进行试验,而Sakura Internet则正在进行一项关于将该技术用于其数据中心运营的可行性研究。 AI处理优化 GPU比CPU更适合进行AI处理,因此其使用量急剧增加。然而,这也极大地提高了数据中心的耗电量,并造成了GPU短缺,各公司正在寻找替代方案来优化AI工作负载。 Gartner的研究人员在一份关于节能型生成式AI计算系统新兴技术的研究报告中指出:“为支持生成式人工智能训练而迅速扩张的计算基础设施,带来了严重的电力供应挑战。” 这意味着运行AI负载的数据中心现在必须找到解决这一问题的方案,以缓解其运营面临的挑战,这些挑战包括成本增加、电力供应不足和可持续性表现不佳。“所有这些最终都将转嫁给数据中心运营商的客户和终端用户。”研究人员指出。 与此同时,IDC高级研究分析师Eckhardt Fischer指出,数据中心必须平衡GPU辅助AI所带来的性能瓶颈问题。“计算机系统对减少这一瓶颈的任何改进,通常都会显示出相应的输出改进。”他观察到。 这些AI或者生成式AI计算需求的瓶颈包括内存和网络,因为“即便是当前的摩尔定律也无法跟上爆炸性的计算需求”,Gartner的Gupta指出。 优化资源分配 富士通表示,其AI计算代理中间件通过结合该公司于2023年11月开发的自适应GPU分配器技术和AI处理优化技术来解决这一问题。这使得中间件能够自动识别和优化多个程序中AI处理的CPU和GPU资源分配,优先处理执行效率高的进程。 然而,富士通表示,与其基于单个作业进行资源分配的传统做法不同,其AI计算代理会根据每个GPU动态分配资源。这样做的目的是提高可用性,并允许在不担心GPU内存使用或物理容量的情况下同时运行多个AI进程。 Gupta指出,中间件背后的概念是有道理的,因为GPU的“耗电量是一个大问题,因此能效就显得尤为重要”。 “这并不能解决短缺问题,但能提高利用率,从而提高运营效率——因此,从某种意义上说,你可以用更少的资源做更多的事情——只要技术可行,”他说。不过,由于这项技术还处于早期阶段,其效果还有待观察。 然而,Gupta补充道,如果富士通的AI专用中间件能在内存和GPU利用率方面带来任何改进,那么它就值得跟进观察其采用情况以及未来类似解决方案的竞争格局。 |