展望2024 | 数据库市场继续快速增长,云原生与AI是两大创新主线
展望2024 | 数据库市场继续快速增长,云原生与AI是两大创新主线
作者:航标
来源:航标IT精选
这几年受到整体经济形势的影响,全球IT支出增长明显放缓。根据Gartner的研究数据,2023 年全球 IT 支出增长率为 3.3%,硬件、软件和服务(包括电信和其他通信服务)领域的支出将达到 4.68 万亿美元。与IT整体市场相比,数据库领域就好多了。这几年都保持两位数的增长,甚至接近20%,在AI和大数据热的驱动下还将继续延续快速增长态势。 Gartner预计,2023年数据库市场规模将超过1000亿美元,年复合增长率达到16.8 %,远远超出整个IT市场平均增长率。中国数据库市场与全球同步,根据IDC发布的《2023年上半年中国关系型数据库软件市场跟踪报告》,2023年上半年中国关系型数据库整体市场规模为17.5亿美元,同比增长13%。 数据库市场的增长与数据的高增长以及大数据和和人工智能技术的应用有关,特别是生成式AI,当然,也与数据库技术的创新有关。实际上,过去的一年,数据库技术在Serverless、HTAP、向量数据库等方面都有不错创新成果。那么,进入2024年,数据库市场会有哪些创新值得我们关注? 深挖云原生潜力 关系数据库技术至今已经有超过50年的历史,在云原生数据库出现以前,不管是数据库技术还是数据库市场格局其实已经相对稳定很多年了。然而,云原生数据库的出现打破这种平稳。2014年AWS Aurora首先破局,随后2017年阿里云PolarDB等其他云原生数据库迅速跟进,不仅在市场站稳脚跟,还很快成为数据库市场的主流,如今微软、AWS的数据库市场份额超越老牌数据库厂商Oracle就是一个很好的证明。 与此同时,一些线下的数据库也纷纷向云迁移,并获得巨大成功。比如,MongoDB就是一个很好的范例。MongoDB的云版本Atlas是MongoDB的主要收入来源(占比超过60%)。在中国市场,TiDB和OceanBase也走上了于MongoDB同样的道路。 云原生数据库是根植于云的数据库,相比于传统数据库,云原生数据库有三大优势:高弹性、低TCO和良好的用户体验。之所以具有这些优势非常关键的一点是云原生数据库可以充分享受云资源的池化能力,从而给它带来了数据库的高弹性、高可用性,包括今天非常热门的Serverless数据库等能力也都建立在资源池化能力之上。 实际上,资源池化能力的优化一直也是云原生数据库技术的创新重点。众所周知,存算分离是云原生数据库的典型架构,Aurora、PolarDB都采用了存算分离的架构。这种架构通过存储和计算的分离实现了存储和计算单独扩缩容,相比存算一体的架构,弹活性得到很大提升。 不过,在存算分离架构中,计算中的CPU和内存还是紧耦合的,还可能存在需求不同步而引发浪费。不久前,阿里云推出了采用新的三层分离架构的PolarDB新版本将资源的池化能力往前又推进了一步。阿里云基于DRAM利用RDMA技术实现了计算、存储和内存分离,未来还会实现基于CXL的内存池化。 内存池化不仅进一步提高了资源调度的灵活性,降低TCO,还提升了数据库的整体性能。当然,其中的挑战也是显而易见的,内存池化后计算访问的可能是位于远端的内存,如何降低时延考研厂商的技术实力。 除了资源池化能力之外,围绕存储的优化也是云数据库技术创新的一个关注点。传统上,云服务商的数据库服务RDS是基于云盘交付的。随着用户对成本的关注度上升,降低存储成本也会成为一个关键诉求。 而和云盘相比,对象存储明显贵得多,因此,有云服务商开始探索如何将数据存储于对象存储之上。同样,这里的一大挑战是对象存储的延迟问题。在2023年的AWS Re:invent 大会上推出了"S3 Express One Zone"服务,将延迟减少至原先的十分之一,接近传统文件存储 NAS 系统的水平,说明对象存储的延迟问题也是可以突破的。不过,AWS的这项服务成本比还是比较高,其价格不仅是 S3 标准版的 7 倍,也超过了自家云盘。 另外,在用户日益关注成本和简化运维的诉求之下,Serverless数据库的热度肯定还会继续。过去的一年数据库厂商在Serverless方面做出了很多努力,比如,AWS在去年的Re:invent 大会上一口气发布了三款 Serverless 数据库产品:Aurora Limitless Database、ElastiCache Serverless 和 Redshift Serverless。到目前为止,AWS已经实现了数据库和数据分析的全面的Serverless化。同样,中国厂商也在积极跟进,阿里云数据库去年也提出了全面Serverless化,腾讯云TDSQL、TiDB等也都推出了Serverless版本。接下来,这些产品都还会继续打磨和优化,而背后的技术基础也正是资源的池化能力。 数据库智能化是大势所趋 过去的一年,AI尤其是生成式AI火出了天际,这股火自然也蔓延到了数据库领域。 数据库行业谈AI一直有两个视角:AI for DB和DB for AI,前者指将人工智能技术应用到数据库,而后者指的是通过数据库支持AI应用。 应该说,AI for DB并不是一个新话题。人们很早就开始利用机器学习,来构建智能运维模型,自动化处理各项任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优等。Oracle的自治数据库就是这一理念下的产物。Oracle也的确还取得了非常不错的成果,不仅可以自动完成数据库的更新还可以帮助DBA来完成数据库的自动调参。 2023年,随着生成式AI技术的走红,人们也开始探讨将生成式AI技术引入数据库的运维。比如,利用生成式AI来构建知识库,用来进行智能客服或者帮助进行客服人员来回答客户问题,这已经成为一种非常普遍的落地形式。 另外,NL2SQL、Text2SQL也是当下的一个热点,其目的是降低数据库的使用门槛,帮助业务人员独立完成数据的查询和分析。2023年9月份,Oracle就在其数据库增添了Select AI能力,借助大语言模型通过自然语言来与数据库交互(如查询数据),最近Oracle对该能力进行了强化,Select AI具有了保持上下文内容的能力。在阿里云今年开年的PolarDB 开发者大会现场,一名来自浙江温州的 11 岁小学生林子贯用一句大白话就查询到了与自己同样喜欢看书的人。而这通常要通过SQL语句才能从数据库中读取出来,背后就是NL2SQL技术,它能将自然语言转化为SQL。类似的,Text2SQL是能将文本转化为SQL,比如DB-GPT等就在向这个方面努力。 而DB for AI方面,向量数据库是热点。RAG是目前公认的一种非常有效的生成式AI落地方式。RAG本质是大模型加外挂知识库,典型的知识库是向量数据库。在生成式AI带动下,去年的向量数据库也很热。不过,RAG中向量数据库并非一定要专业的向量数据库,也可以是支持向量搜索的关系型数据库。实际上,我们看到传统数据库纷纷支持向量数据,而且不止是关系数据库,包括NoSQL、甚至数据仓库等,都纷纷支持向量数据类型了。 在DB for AI方面另一个热点是在数据库内部完成模型的推理,其目的是减少数据的搬运,降低数据传输成本和减少时延。这也是技术创新的一个重点领域。 小结 在云计算行业,这几年一直在说“云智一体”,其实之前少有人真正深刻地理解其含义。去年,生成式AI的走红,云厂商纷纷投入到大模型“大战”之中,让我们真正了“云智一体”背后的含义。今天,在数据库行业,我们看到创新也在围绕云和人工智能展开,可以说“云智一体”也已经成为数据库的角力点。 |