AGI时代,数据库厂商如何破局
作者 | 程茜
编辑 | 漠影
生成式AI时代究竟该如何构建数据库?
智东西5月20日报道,刚刚过去的周六,OceanBase 2025开发者大会上,我们找到了这家数据库厂商的答案——一体化数据底座。
OceanBase CEO杨冰说:“一体化数据底座指的是希望通过一体化产品、一体化引擎,同时处理OLTP、OLAP以及AI的混合负载。”
他们想要最终解决的难题就是AI的大爆发时代,数据库应当如何更好地存储、处理数据,从而更好地适应新时代需要,谋求更长远发展。
当下,企业的数据存储与处理正面临前所未有的挑战。一方面,大模型训练、实时推理等场景产生的海量异构数据,要求存储系统具备极高的容量弹性与跨模态管理能力;另一方面,数据处理需兼顾事务处理的实时性、分析决策的高效性及AI任务的复杂计算需求。
然而,传统数据基础设施与生成式AI下的数据需求割裂,产业亟需能整合多模态数据处理、海量数据处理等特征,并深度融合AI能力的新型数据底座。
在此背景下,国产数据库的主力玩家OceanBase,已经在数据库转型之路上率先突围:宣布全面拥抱AI,打造“Data×AI”核心能力、启动人才和组织体系升级,并围绕一体化数据底座为核心发布首款面向AI的应用产品PowerRAG。
开发者大会同天,智东西等媒体与OceanBase CEO杨冰、CTO杨传辉进行了深入交流,试图探寻这家数据库主力厂商在AI时代的核心竞争力。
一、从Data Infra向Data×AI Infra跃迁,数据在AI时代的角色将如何重塑?
数据的特征会直接影响模型的性能、泛化能力和应用效果,但伴随着AI的发展,数据衍生出一系列亟待突破的全新挑战。蚂蚁集团CTO何征宇提到了四大挑战。
作为大模型训练基石的互联网公开数据即将枯竭,未来获取高质量数据的成本将逐步攀升。
严谨的行业数据稀缺且流动困难,存在三重特征:数字化进程滞后、数据质量要求严苛、核心数字化知识沉淀不足。
多模态数据需要更强处理能力。未来越来越多的数据需要包含视觉、触觉、本体感觉和音频等诸多信息。
数据的质量评估难。评估的质量决定模型质量,但现有数据与模型质量评估方式,难以指导大模型训练摆脱“训模如炼丹”的窘境。
对于数据的重要性,何征宇一针见血指出:“数据的边界决定了大模型的能力上限,所有的数据公司都将成为AI公司。”
与此同时,数据量的增长仍在突飞猛进。IDC预测到2028年,受生成式AI等技术驱动,全球新生成数据量规模将达到393.9ZB,其中企业数据规模和增速尤为凸显,全球企业级数据的数据量较2023年整体增长在400%以上。
可以看到,数据在AI时代的角色正在被重塑。正如杨冰所说,如今数据基础设施不仅要实现“物理变化”,如支撑海量数据存储、可扩展性等突破存储、计算的瓶颈,还要发生“化学变化”,如支持知识的学习、获取,支持应用的推理以及决策。
因此,AI正驱动数据基础设施Data Infra向“数据×AI”的融合架构Data×AI Infra跃迁。
在生成式AI应用爆发之际,传统的数据基础设施的转型显得更为急迫。IDC软件市场研究经理李凌霄提到,数据基础设施目前的负载割裂、云环境割裂、多模态割裂、技术债务正阻碍生成式AI落地。
传统TP+AP环境会造成长数据链条资源消耗、负载需求,无法在生成式AI场景下拥有实时支撑能力以及充分的计算资源;同时企业在不同云平台间的数据交互、加工、治理割裂;传统场景下专库专用的架构做异构数据间联合查询时,会造成性能消耗和响应延迟;企业需要在生成式AI时代,保持、延续其此前基础设施架构的完整。
其中,2023年随着大模型发展而爆发的向量数据库,曾因擅长处理非结构化数据被视为企业最大化发挥数据价值的关键工具,但如今其难以独立解决复杂业务问题的弊端愈发凸显。
诸多企业实现向量融合的方式是在现有数据基础设施之上融合向量插件,很少会选择独立部署。杨传辉提到,向量数据库是一个临时态,因为用户在查询时往往会涉及向量、标量等混合数据,独立的向量数据库未来会被替代。
在大模型落地行至关键机遇期,数据和大模型能力如何融合,成为数据库领域企业决胜AI时代的核心竞争力分水岭。深耕数据库领域的OceanBase已经先行一步,开始探索构建适配AI时代的数据底座新范式。
二、两大思路加速一体化数据库转型,首发AI产品PowerRAG
拥抱AI已经成为千行百业共识,一贯秉持稳扎稳打理念的OceanBase于今年4月底,宣布全面进入AI时代。
彼时,OceanBase CEO杨冰发布全员信,宣布要打造“Data×AI”核心能力,加速打造AI时代数据底座。
具体来看,OceanBase的Data×AI战略的关键是要实现数据与AI的融合,而一体化数据底座就是一体化数据库的延伸,其核心仍然是能不能做好数据处理。
其背后的考量一直是以用户需求出发。AI时代对于数据处理的两个显著需求是:高质量、海量数据以及混合负载。杨传辉说,AI应用出现使得工作负载边界逐渐模糊,其无法严格区分向量、标量数据,开发者的需求也随之变化:他们希望在一套引擎里直接通过一条SQL处理所有工作负载。
这恰恰是OceanBase的核心优势所在。OceanBase除了能够支持OLTP和OLAP传统数据库工作负载,还能支持AI领域工作负载,如半结构化数据JSON处理、向量数据库、混合检索以及RAG能力等。
从宏观角度来看,这些技术积淀为数据与模型的一体化融合提供了基础,成为大模型落地产生价值的关键所在。
还是从需求出发,数据和模型实现融合需要解决的有两大问题:数据处理和模型本身的准确性、成本、行业适配性等。在此基础上,OceanBase进一步将打造“Data×AI”核心能力细化为两方面工作:
一方面是要将数据融入模型里,希望通过提高数据质量、结构化程度,提升模型准确度、推理效率,让小模型也能有大效果,同时降低推理成本;
另一方面是希望将AI原生集成到数据库中,杨传辉阐述说这有两种融合方式,一是较为直观的在数据库里通过类似AI function方式直接集成大模型能力,另一种是实现SQL+AI的混合计算,分析、问答一体完成,这样的融合需要较长的时间来实现。
关于一体化数据底座布局的考量,OceanBase在产品层面首发了面向AI的应用产品PowerRAG,为开发者打造AI驱动的开箱即用RAG服务。
杨传辉说,他们首要解决的是“能用”问题,通过RAG方式提升大模型准确率,再逐步从“可用”推进到“好用”,使得AI应用走向实际生产场景。
传统的搭建RAG服务方案存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。打通应用开发数据层、平台层、接口层与应用层全流程的PowerRAG,可以提供Document(文档)和 Chat(对话)两个核心API接口,使得用户可以快速实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的开发。
这只是OceanBase在应用层面探索的第一步。未来,OceanBase将逐渐形成从算力、基础设施,到平台层、应用层、交付形态的一体化数据底座全方位布局。
三、15年积淀,企业级分布式数据库能力已打下基础
这个势头正猛的国产数据库主力,经过15年的磨砺,已经淬炼出独特的Data×AI Infra方法论,构建起智能时代的核心竞争力。
成立自2010年的OceanBase,是蚂蚁集团100%自研的原生分布式数据库,目前支持支付宝全部核心账务、核心支付系统,连续十余年稳定支撑双十一的高并发场景。
如今OceanBase取得的成绩可以用这几个数据加以概括:IDC发布的《2024年上半年中国分布式事务数据库软件市场跟踪报告》显示,OceanBase占据独立数据库市场份额第一、市场整体第四;杨冰透露,目前OceanBase社区已经拥有超2.5万名开发者,突破100万下载次数、可统计的开源集群数超5万个。
OceanBase已通过横向扩展的技术底座构建起符合AI时代技术能力的技术基础,同时以纵向深化的高性能数据处理基准,为打造AI时代的一体化数据底座积势。
从技术底座的布局看,OceanBase最基本的企业级分布式数据库能力,为AI时代的海量数据处理分析打下基础。同时,其同步推进向量性能、混合检索等支持AI应用落地的核心基础设施发展。
从性能表现看,OceanBase的性能已经达到开源向量数据库业界领先水平。杨传辉现场演示对比了OceanBase与业界主流的3款开源向量数据库,结果显示,OceanBase的跑分超过其他三大业界主流开源向量数据库。
此外,在处理海量数据方面,OceanBase引入BQ量化算法,OceanBase的测试结果显示,在同等召回率与性能的情况下,引入该算法(HNSW+BQ)能够实现内存成本较HNSW降低 95%。
为帮助用户降低AI场景中常见的半结构化数据存储成本,OceanBase引入针对JSON半结构化数据的压缩能力。经OceanBase测试, OceanBase在TPC-H 10G数据集上JSON压缩比可达MongoDB的3倍。
同时,在技术布局的前瞻构建与用户需求的精准洞察之外,OceanBase宣布了全维度拥抱AI的战略决断,并且即刻启动组织效能革新与人才结构升级的双轮驱动。
OceanBase CTO杨传辉担任AI战略一号位,全面统筹AI战略制定和技术产品落地,同时成立AI平台与应用部、AI引擎组等,将形成AI时代从一体化存储到一体化计算的全方位布局。
全面进入AI时代背后,是OceanBase打造AI时代一体化数据底座的技术底气与信心。
结语:OceanBase全面拥抱AI,数据库转型已先行一步
随着AI发展,数据库在智能生态中承载的能力正经历颠覆性变革,从传统的数据存储容器蜕变为驱动AI全流程的智能引擎。
数据库企业正以主动变革的姿态,将技术迭代转化为AI时代的增长引擎。OceanBase希望由“数据库”向“数据底座”演进,形成全方位、一体化处理这些问题的解决方案,为AI时代的企业解决数据处理难题。
(来源:新浪科技)