AI时代,为什么要做好数据治理?

2026年02月12日,14时40分58秒 科技新知 阅读 3 views 次

AI时代,为什么要做好数据治理?

撰文 | 李信马

题图 | AI生图

在AI时代,数据已然成为关键生产要素,企业想充分发挥AI的潜力,数据治理是绕不开的核心环节。

不久前,亚马逊云科技在北京召开的媒体沟通会上,围绕着如何助力企业数智化转型升级,亚马逊云科技成长型企业及新兴业务总经理倪殿令进行了分享,尤其是有关数据治理,已经成为企业数智化转型升级的关键支撑,数据引擎和治理也是亚马逊云科技在AI时代的核心优势之一。

AI时代,为什么要做好数据治理?

拍摄:DoNews

他用了一个餐馆的比喻,餐馆有后厨,后厨每天要去采购食材,农场把菜运回来后,需要把这些食材进行处理。亚马逊云科技的Amazon EMR服务,原理就像把仓库里所有的菜洗干净、按归类放好,切成适合炒菜的原材料。

“向量”就像采购回来的菜,把它洗净、切片,如果要炒土豆丝,就切成土豆丝;如果是炒番茄,就洗干净切成番茄块。

AI时代,为什么要做好数据治理?

这些处理好的食材存放在冰箱里,是按照类别存放的,冰箱就是支持向量存储的,我们称之为向量数据库,如Amazon Aurora、Amazon RDS和Amazon OpenSearch。

AI时代,为什么要做好数据治理?

深度学习的应用,就像客人点菜——一个查询(Query)来了。厨师把冰箱门打开,把菜品拿出来,再炒制后送出去,这就是AI应用查询的逻辑。

AI时代,为什么要做好数据治理?

“所以大家理解,最重要的不是前端的模型,也不是前端AI的App来查询,最重要的是底层的数据处理能力,以及向量数据如何存储、DBMS数据如何归类存储的能力。在生成式AI应用中,这部分的影响力超过90%。一家企业能否用好生成式AI,其使用的开源模型或微调(fine-tuning)模型的‘幻觉’程度,取决于企业数据量的大小和数据的质量。”倪殿令说道。

下面的这张图讲的是AI应用企业领域数据实施模式,可以进一步看到,数据为企业带来的竞争优势。

AI时代,为什么要做好数据治理?

拍摄:DoNews

先看右边,最底层是大模型,然后挂上RAG(Retrieval-Augmented Generation)增强检索。有时候外挂的效率很低,需要做微调。还是用比喻的方法来解释,一个人从小幼儿园到大学,就像是模型训练的过程,需要很长的时间去训练思维模式。

AI时代,为什么要做好数据治理?

毕业后到企业工作,企业进行上岗培训,让你了解行业知识,这就是微调(Fine-tuning)。

AI时代,为什么要做好数据治理?

刚上岗的时候,老板给你指定一位老师,他在试用期6个月的时间里用最快的方式把他脑子里的精华告诉你,要怎么做事,这就是蒸馏——在特定的小范围找到正确答案最快的方式。

再看左边,将开源的非结构化数据变成结构化数据,再经过Amazon EMR的数据治理,变成向量存储,再用于调用,跟大模型结合。但对绝大多数企业来说,模型用的是开源或者买的,这终究是“别人的”,数据才是关乎企业能否用好深度学习真正重要的东西。

倪殿令和客户交流时,对企业的管理者提出,可以通过“黄金三角”——场景、数据、人才——拥抱生成式AI。

首先,场景方面,企业需要找到既能创造价值,又适合用生成式AI解决的具体业务场景,比如智能客服、知识库构建、文生图或文生文等,但针对业务的场景需清晰界定输入、输出及预期效果。

其次,数据方面,为模型选择和模型适配的正确的工具,以及建设良好的数据基础。“把底层的数据处理,包括结构化的数据基础夯实好,然后再通过跟大模型之间的调用关系把它动起来用好。”

最后,在整个数据治理的过程当中,要有相应的人才,比如数据工程师、算法工程师,有人做模型适配,有人做调优。

不难看出,数据治理被置于企业数智化转型升级核心支柱的位置,当然,强调选择“正确的工具”,多少也有云厂商“王婆卖瓜,自卖自夸”的原因在。不过在IDC发布的《IDC MarketScape: 中国面向生成式AI的数据基础设施2025年厂商评估》报告中,亚马逊云科技位居领导者类别,也佐证了亚马逊云科技在数据治理方面的实力。

在AI时代,数据治理发挥着至关重要的作用,为生成式AI应用提供了坚实的数据基础,确保其准确性、稳定性与可迭代性。随着企业落地AI应用的需求日益增长,可以预见,数据治理领域的技术创新也将不断出现,助力产业界通过AI创造更多的价值。

注:文中图片来自现场拍摄(有修正)及AI制作

(来源:DoNews)



用户登录