在生成式AI热潮的带动下,人工智能应用正在爆炸式增长。据麦肯锡估计,生成式人工智能每年可能为全球经济增加2.6万亿至4.4万亿美元。一些大胆富有创新精神的公司已经率先拥抱生成式AI,而更多的公司跃跃欲试,正在评估或者进行初期验证。 面对这股人工智能应用新浪潮,各大云厂商也卯足了劲对自己的基础设施进行优化。根据Synergy Research Group的最新数据,2024年上半年,云服务收入达到4270亿美元,同比增长23%,而同期公有云厂商在数据中心基础设施上的全球支出同比增长了36%,这些支出中大部分集中在人工智能。 在中国市场,我们同样也能感受到云厂商对人工智能的热情。去年以来,云厂商几乎所有的市场活动都围绕AI展开,一直在兜售“公有云是生成式AI的最佳选择”。显然,这并非事实,更准确地说,并不总是事实。这些年来云服务的应用实践已经表明,公有云并非总是最佳选择,公有云宣称的消减成本、简化流程、更便宜、更快、更便捷等优点并非轻易就能实现。这一点对人工智能应用同样适用。实际上,由于生成式AI应用数据规模更大,对数据安全和主权要求更高,很多时候本地部署可能才是更好的方式,尤其是对大规模AI应用。 私有化部署或许更具性价比 毫无疑问,云计算开启有了一个创新的新时代,推动了大规模的数字化转型大潮,“上云 用数 赋智”一度成为各个地方政府推动企业数字化转型的指导方针。然而,在云优先战略的驱动下匆忙“上云”的很多企业发现,它们所预期的生产率提高和成本节约并没有实现,公有云承诺的效率提升并没有转化为生产力的显著提高。而另一方面,过去十年中,本地计算和存储服务器的成本急剧下降,公有云相对于私有部署的节约越来越不明显,甚至出现了不少企业“下云”,重新回归私有化部署的现象。 今天,当大规模的生成式AI部署浪潮来袭,众多企业再次涌向云端以获得即时访问和灵活性,来加快AI部署。它们中不少人的选择其实具有很大盲目性。实际上,不同企业、在不同阶段有不同的需求,需要根据自身需求来选择最适合的方式。 比如,一般而言,刚开始进行AI应用开发和探索时,用公有云的AI基础设施可能是性价比比较高。因为在这个阶段,对AI应用的范围、功能、深度都还不确定,还在实验和探索,对灵活性和便捷性要求比较高。此时如果企业自己去构建 AI平台,前期投入比较大,而GPU的利用率也不会很高,很容易造成资源的浪费。随着企业的不断探索,应用的功能、范围逐步稳定下来,这个时候公有云和私有云的性价比也逐步接近。 这并不难理解。随着企业对AI应用功能的不断探索,最终会逐步趋于稳定,对资源利用率也会逐步升高,而对于灵活性和弹性的要求会逐步下降。为了获得更好的利用率,企业可能更希望自己能把控整个AI基础平台,来进行优化和扩展,此时私有化部署的优势就会非常明显。同时,私有云部署的数据安全性和灵活性也是公有云所无法比拟的。 根据数据中心提供商Equinix对AI云的规模化成本的研究,AI应用中GPU的利用率达到60%是一个临界点:小于60%时采用公有云成本相对比较低,而大于60%时则自建数据中心比较合适。 Enterprise Strategy Group对大型AI应用做过一项专门研究,调查发现,在本地托管具有检索增强生成(RAG)的开源大型语言模型(LLM)比公有云中的同类服务,成本要低38%甚至更多。对于基于API的方法成本优势更为明显。这凸显了仔细审查人工智能部署方式的重要性,支持本地或混合解决方案,以更好地管理成本并保持对数据的控制。 总结来说就是,在利用率达到60%时,相比公有云,私有云的安全性、灵活性、更大的性能优化空间等优势更能凸显,对于准备大规模部署AI应用的企业,私有云可能是一个更为合适的选择;而对于早期处于实验性的或者少量负载的AI应用,则公有云更好。 云服务的教训 公有云服务在中国出现已经15年,过去这些年人们在享受公有云服务的便捷性和灵活性的时候,也有不少教训,这些教训在AI时代颇有借鉴意义。比如,不受控制的热情可能会导致高昂的成本和战略失误,特别是当公司严重依赖公有云服务却缺乏对成本的管控时。还有,快速采用和仓促实施很容易导致成本上升、安全漏洞和治理等挑战出现,这些问题在生成式AI落地过程中可能再次出现,进而对企业AI战略的实现带来负面影响。 其中最值得吸取的无疑是从一开始就制定成本优化战略,而不要盲目迷信技术的先进与否,就像微服务架构并不一定比单体架构更具成本效益。又如,很多时候工具也是导致成本居高不下的一个因素,在云上可能只是简单地将开发、测试和运维工具换一下就可能节约10%-20%。 第二个教训是将人工智能尽可能部署到数据所在的地方。Gartner预测,到2025年,75%的企业生成数据将在传统的集中式数据中心之外创建和处理。这一转变要求组织重新思考其数据管理策略,以确保数据安全、主权和合规性。而私有部署优先的方法在利用现有基础设施的同时保持利用公有云的灵活,避免了以后由于数据重力等挑战而需要进行重大再造。 此外,随着生成式AI应用的深入,持续的评估和调整至关重要。技术格局在不断变化,今天有效的策略明天可能无效,企业要能够随着技术和业务需求的变化,采取最合理的方式来促进创新,并以可持续性的方式部署生成式AI。 总之,生成式AI提供了一个将技术与战略相结合的新的机会,而要让生成式AI的技术红利真正变成企业的竞争优势,企业需要结合成本效益、数据管理需求以及企业IT基础设施的实际情况来做出决策。同时,在内部建立人工智能专业知识和培养创新文化将使团队能够管理和优化人工智能计划,使企业能够利用人工智能进行可持续创新,最终才能帮助企业赢得竞争优势。 |