在向量数据库这件事上,腾讯云走得比AWS、阿里云都急
在向量数据库这件事上,腾讯云走得比AWS、阿里云都急
作者:航标
来源:航标IT精选
生成式AI的走红让向量数据库很快也成为一个热门赛道,市场上涌现了不少向量数据库。腾讯云的Tencent Cloud VectorDB也是其中之一。相比AWS、阿里云等云厂商选择以插件形式支持向量数据的存储和搜索,腾讯云选择了专门的向量数据库,是各个云厂商中为数不多推出自有向量数据库的云厂商。很显然,腾讯云不止是简单地追逐向量数据库这个风口。 11月15日,腾讯在其技术开放日专门举办了一场腾讯云向量数据库技术&产业峰会。在此次大会上,腾讯云宣布了向量数据库的最新进展,包括最高支持千亿级向量规模和500万QPS峰值能力等,并联合中国信通院联合发布了向量数据库标准。 10亿级向量的检索能力 今年7月,腾讯云正式对外发布了自己的向量数据库Tencent Cloud VectorDB。这个时间甚至比腾讯正式发布混元大模型还要早。根据腾讯的说法,VectorDB是一个AI 原生(AI Native)的向量数据库,能广泛应用于大模型的训练、推理和知识库补充等场景。 VectorDB的“AI原生”体现在三个层面:接入层、存储层、计算层。具体而言,在接入层支持使用自然语言查询,通过将Embedding能力下沉到向量数据,让开发者可以通过自然语言与向量数据库进行交互。在存储层,通过优化索引的压缩算法,让数据的分布更合理,从而在相同的内存可以存储5-10倍的数据。在计算层面,通过基于语义的排序来实现更聪明的计算,从而不仅让交互更自然,计算结果、效率和成本都得到一并优化。 为了进一步方便用户的使用,腾讯云还在向量数据库配套工具上下功夫,推出了配套的AI套件,通过这个AI套件,开发人员在100行代码内就可以快速地搭建一个企业级的本地知识库。 腾讯云数据库副总经理、向量数据库负责人罗云介绍,建立知识库其实涉及很多工作,比如,要对初始文本切割,分割后要避免语义丢失,还涉及Embedding模型的选择等、索引方法的选择等。 “我们希望尽量能帮助客户去自动地完成构建和选择,同时让客户的召回率更好。”他说,正是通过一系列的方法,使得腾讯云向量数据库表现优异,相比开源的向量数据库产品,腾讯云的VectorDB召回率要高30%左右。 在当天的活动中罗云透露了向量数据库的最新表现,比如,在优化版的IVF索引支持下,腾讯云向量数据库已从最初的十亿向量规模扩展到了现在的千亿规模,最高支持QPS(单位时间内的访问请求量)达到500万,同时在单QPS成本上,腾讯云向量数据库相比同类产品也有明显优势。 这些数据是在信息通信研究院(信通院)组织的向量数据库技术标准测试中取得的。信通院联合腾讯云等50多家单位共同制定了一个向量数据库的标准,标准定义了向量数据库所需要的7个能力和47项功能。腾讯云是首批也是第一个通过这个向量数据库标准的厂商。 目前,腾讯云的向量数据库技术已经得到广泛应用,包括腾讯云自己。实际上,早在2019年,腾讯云向量数据库就已经接入了QQ浏览器等多业务场景,每天处理超过1600亿次的请求。在向量检索帮助下,QQ浏览器检索成本38%,QQ音乐的技术支持也较大提升。 截止目前,腾讯云向量数据库已经累积服务了腾讯内部40多个业务,日请求量达1600亿次,还服务了包括博世、销售易、搜狐、好未来、链家等在内超过1000家的外部客户。 要不要专业的向量数据库? 向量数据库其实在生成式AI走红之前就已经存在,并在搜索引擎(以图搜图、文搜图)、推荐系统中得到比较广泛地应用。而真正受到关注则是在生成式AI走红之后,作为大模型的外部知识库被用来解决大模型的幻觉问题。比如,现在大模型一种主要的落地方式检索增强(RAG)中的外部知识库最普遍的选择就是向量数据库,很多人利用开源框架LangChain +开源向量数据库来开发RAG应用。 随着生成式AI的走红,向量数据库已经成为投资热点,比较知名的Weviate、Pinecone、milvus等都先后获得大笔融资。在中国市场向量数据库也很受关注,京东、腾讯云、星环等都有自己的向量数据库,但与国外开源向量数据库更为活跃不同,国内市场上的向量数据库以闭源产品为主。 当下,生成式AI已经成为各个云厂商的战略重点,各大云厂商也非常重视向量数据库。然而,与云大厂纷纷自研自己的大模型不同,在向量数据库上大部分云厂商并没有推出专门的向量数据库,而是选择通过在传统数据库中加入插件来实现向量数据库的功能。比如,AWS、阿里云都没有推出自己的向量数据库。AWS的Aurora、Opensearch都通过插件来提供向量相关功能;阿里云的PolarDB和AnalyticDB也都是借助插件提供了对向量数据类型的支持。腾讯云和京东是为数不多推出了自己的向量数据库的云厂商。 实际上,到底要不要专门向量数据库也是当下很多人讨论的问题。一般而言,插件的方式由于向量与标量数据存储在同一数据库,没有数据迁移,开发人员可以沿用原来的技术栈,同时完成对向量和标量的处理;而专用的向量数据库比传统数据库在性能上和可扩展性上可能更好。 另一方面,大模型能力也在不断完善,甚至将一些向量数据库的能力内置其中。不久前,在OpenAI的开发者大会上发布了Assistans API,Assistans API 提供了“代码解释器(Code interpreter)”“检索(Retrieval)”“函数调用(Function calling)”三项功能,允许用户以低代码或无代码方式配置出应用,而无需向量数据库。同时,大模型支持的Token数量也在增加,GPT-4已经达到128K(相当于300页的内容),这意味着更多内容可以直接放入Prompt中,这也引发了人们对向量数据库未来市场空间的讨论。 不过,向量数据库作为一种专门的数据库,在面对海量的向量数据(比如千亿级)时的性能、可扩展能力以及高级的查询能力是传统数据库+插件这种方式所无法比的,因此,专业的向量数据库未来必然会有其存在的市场空间,而一些简单的、小规模的数据集可能会留给传统数据库+插件。 鉴于此,未来的向量数据库一定会更加突出其专业能力,会向更强大的分布式并行能力和实时处理能力、提供更多高级查询能力和多模块数据处理能力、更通用与易用以及与大模型的深度融合的方向发展。 |