张兵:AI的基础是CDM

2025年05月18日,11时19分27秒 科技新知 阅读 12 views 次

文 | 钛资本研究院

张兵:AI的基础是CDM

DeepSeek使算力和算法走向平权,AI场景化商业化应用推动数据资产化加速,数据资产化的前提是合规,合规的原则是以第三方的客观手段对业务留痕,而符合应用一致性和时间完整性的拷贝数据管理CDM是AI数据的重要基础设施。

最近,钛资本邀请中国CDM领先厂商云信达科技的创始人张兵进行分享,为大家带来一些AI投资热点下的“冷思考”。主持人是钛资本郭吉荣,他毕业于南京大学,关注信息技术应用创新新能源等领域。以下为分享内容:

AI三大基础生产要素

今年春节期间,DeepSeek现象引发了全社会对AI的广泛关注,它不仅刺破了美国股市的泡沫,也标志着AI技术的普及化。算力和算法,其实在走向平权。

DeepSeek现象消除了算力和算法的神秘感,使得算力和算法走向平权化,为行业和企业提供了实际的商业价值。AI正在通用化,大举进入越来越多的行业和场景,大模型下一阶段的训练必然触及行业或企业数据乃至个人隐私数据,数据继算力算法之后成为最稀缺的资源

数据取代模型成为AI最重要的生产要素,通用人工智能AGI加速了数据资产化,私域数据的全方位、全流程、资产化管理,以及能够和算力、算法无缝结合,强烈需要新型数据基础设施的出现。企业开始将数据视为资产,但同时也意识到数据的保密性,不会轻易公开,以防企业秘密被公开模型学习后丧失竞争优势。

数据资产化并非新概念,早在两年前,国家财政部就修改了会计准则,允许数据资产入表,同时成立了国家数据局,这标志着数据资产化进程的加速。数据资产化管理成为企业面临的紧迫问题,需要新型的数据基础设施来支持。

随着数据资产化进程的加速,企业对其私域数据的全流程资产化管理变得尤为重要。这一进程不仅改变了人们对数据的认知,也推动了政府对公共数据资产的管理,从大数据应用转向了数据资产化管理。因此,数据资产化和新型数据基础设施的出现,对企业和政府都具有重要意义。

数据基础设施是超越IT基础设施的新型基础设施

数据基础设施、传统IT基础设施有何区别?尽管云计算代表了传统IT基础设施的高峰,但数据基础设施与之有根本不同。IT基础设施对最终用户而言是服务而非资产,而数据则是用户的专属资产。

数据基础设施是虚拟的、无形的,具有高维度特性,与物理实体的低维度IT资产形成对比。数据资产不仅包含时间维度,能够承载过去、现在和未来的信息,这使得数据成为高维度的资产。

AI企业级应用需要一个可管理的数据基础设施,该基础设施需贯穿数据采集、管理和流通的全流程,即端到端的数据管理。

数据基础设施必须符合合规性和敏捷性两个目标。合规性指的是数据的一致性和完整性,敏捷性则要求数据可见且可操作。数据资产化是DeepSeek现象后最显性化的现象,加速了数据生产化,这对企业来说是一个迫在眉睫的现实问题,因此需要新型的数据基础设施来支持。数据资产化进程的加速意味着企业对其私域数据的全流程资产化管理变得尤为重要。

1、拷贝数据技术与AI数据基础设施

数据管理的底层技术,特别是“拷贝”(copy data management)技术很重要,拷贝技术是将无形的数据资产从有形的IT基础设施中分离出来的关键,它既是动词也是名词,代表着信息在自然界中存放和传递的形态。

数据基础设施的构建基础是拷贝技术,能够承载高维度的数据空间。真正的可信数据空间是基于虚拟数据资产的高维度空间,而构建的。随着AI大模型算法和参数调整进入瓶颈,当前最需要的是真实、有效的未经清洗的原始数据(raw data)。

为了支撑AI的数据基础设施,拷贝数据技术需要满足几个条件:首先,它需要能够将数据要素从其他IT要素中分离,实现数据与原始应用的解耦合;其次,数据需要符合合规性和敏捷性,即数据的一致性、完整性以及可见可操作性;最后,这些条件需要贯穿数据采集、管理和流通的三个阶段。

传统的数据中心和云计算服务(如SaaS)并没有解决数据与应用之间的解耦合问题。为了将数据从应用中分离出来,可以使用的技术包括复制技术、ETL(提取转换加载)和数据备份。只有元格式的数据备份技术同时符合合规性和敏捷性原则,能够与原始应用结合。

2、数据备份与数据合规、数据质量

数据备份不仅仅是简单的三倍存储,而是一种对业务数据的留痕,是业务连续性的关键。在AI时代,备份数据因其未经清洗、真实、有效和全面的特性,成为AI所需的高质量数据源,同时也是合规性的重要保障。数据备份的首要目的是作为合规审计手段,它能够确保数据的一致性和完整性,并且具有时间戳,为数据的全生命周期留痕。对生产数据进行合规审计是业务需求,而非仅仅是IT概念。

数据备份的真正价值在于其对数据资产或数据要素的价值。可以把数据看作人类生命体,具有不同层次的需求,从存储、安全到合规、定价和价值实现。

数据备份与数据保护有所区别,数据保护是低端需求,关注业务连续性,而数据备份是更高层次的业务属性需求。数据备份是数据管理合规流程中的关键一环,是数据需求由低到高演进的必经阶段。

数据备份如何展现数据资产的高维度属性?即数据备份能够使数据穿越时空回到过去,恢复到干净、完整、良好的版本。这也是数据资产价值实现的途径。

CDM颠覆力量涌现,企业级数据管理成AI新基础

2024年对美国CDM(Copy Data Management)技术市场而言是关键的一年,市场经历了显著变化。2025年2月8日,全球知名的数据备份厂商Veritas被一家美国创新的CDM厂商Veeam收购,其经典产品NetBackup将转为Veeam的资产,收购金额达30亿美元,由英伟达和IBM提供资金。此外,另一家CDM企业Rubrik在纳斯达克上市,市值一度超过150亿美元,目前约140亿美元。

2024年初创的云备份态势管理厂商Eon在资本All in AI的时代实现10个月内2亿美元的融资,Eon专注于提供下一代云备份平台,释放备份数据的即时访问能力。云备份的真正潜力在于备份数据的即时访问能力,这在2024年引发了重大认知转变。一家成熟的云备份公司Veeam去年12月又获得了20亿美元的新融资。

这些变化表明备份技术正在向CDM技术转型,以适应云数据管理和即时访问的需求。

1、CDM破解数据管理不可能三角

CDM技术解决了数据管理的不可能三角问题,即一致性、可用性和分区容忍性。以12306购票APP为例,说明了分布式系统的CAP不可能三角,即在分布式系统中,一致性、可用性和扩展能力不能同时得到。这表明,CDM技术在数据管理和备份方面具有突破性,能够提供更高效的数据管理和备份解决方案。

IT服务和金融系统的特性,特别是它们在一致性、可用性和分区容忍性(CAP理论)方面的不同表现。尽管IT服务可以随时随地提供查询服务,但这些服务并不总是保证一致性和可用性。

以12306购票APP为例,分布式系统在查询时提供高可用性,比如查票的时候,你点击一下,各个车次有多少票就出现了,它可以在全国各地分布成千上万台甚至几百万台服务器。但在占座和付款的时候,通常需要一个集中式系统来保证,实现一致性和可用性,背后要有一个强系统,实现读写分离——有限的几台机器来提供全国所有用户的下单。

金融系统要求强一致性和可用性,不能像12306彩票系统那样无限分区,因此金融系统是一个强一致性的系统,不可能实现无限分布式。

数据管理的不可能三角,即合规性、可管理性和敏捷性。传统的数据备份虽然符合合规性并具有数据生命周期管理的优势,但在敏捷性方面存在不足,因为传统备份数据通常不能直接访问,这限制了其敏捷性。比如传统备份将数据打包压缩成一个专有格式的压缩包,这种数据包在电脑上无法直接打开,只能在手机上恢复,这限制了其敏捷性。

一些美国创业公司正在提供备份数据的即时访问能力,这正是敏捷性的体现,但这与传统备份的强合规性存在矛盾。传统备份的目标是尽快将数据打包保存下来,而没有考虑数据的即时访问和敏捷性。CDM(Copy Data Management)技术实现了合规和敏捷之间的平衡,解决了数据管理的不可能三角问题。

2、创新CDM技术——原格式、黄金副本、虚拟副本

CDM(Copy Data Management)技术通过结合黄金拷贝(Golden Copy)和虚拟拷贝(Virtual Copy)解决了数据管理的不可能三角问题,即合规性、可管理性和敏捷性。黄金拷贝是原始业务数据的一致性备份,具有合规性,但不可修改。虚拟拷贝则可以在毫秒级时间内从黄金拷贝生成,零成本且可无限生成,提供指针式访问,实现敏捷性。这种链接实现了原始合规数据的敏捷性,平衡了合规和敏捷。

CDM技术进一步破解了数据管理不可能三角,通过元格式拷贝、黄金副本管理和虚拟副本服务,解决了数据采集、管理和流转三阶段的问题。数据采集阶段,为了业务数据的敏捷性,使用了ETL(Extract, Transform, Load)技术,这是一种根据特定需求人工调整、清洗并加载到人为定义的新数据结构的过程,但不具备合规性。

CDM技术是下一代数据管理基础设施的关键技术,它通过合规和敏捷的平衡,为数据管理提供了新的解决方案,为数据采集、管理和流转提供了端到端的解决方案,实现了数据管理基础设施的技术进步。

以前,有银行因无法提供原始交易数据而被法院驳回,法官认为数据仓库的数据不是原始的,这也突显了电子数据作为证据的局限性。尽管银行运作规范,但数据仓库中的数据经过ETL(Extract, Transform, Load)过程,并非原始凭证,这在司法系统中难以穿透审计。ETL过程由人工编写,法官难以认定其规则的合规性。

对比大数据和数仓时代与AI时代数据采集方法的差异,可以看到,在BI时代,人们先有商业目的,再建模找数据;而在AI时代,由于AI大模型的强大能力,人们更倾向于使用未经清洗的原始数据(raw data)。这种变化反映了从目的驱动的数据采集到数据驱动的模型构建的转变,强调了原始数据的重要性。

这种生成式AI可以与原始合规数据对接,因为它沉淀了企业业务的所有历史数据。这种对接是RAG(Retrieval-Augmented Generation)生成式检索与原始合规数据之间的桥梁,使得AI可以直接利用未经清洗的业务数据进行分析和决策。

认知数据资产

数据资产化不仅是财务属性,更关键的是数据的业务属性,即数据的定价、流通和交易能力。数据首先需要具备IT属性,因为数据是现代信息技术的产物,没有现代IT技术,数据可能还停留在书本或竹简上。

数据资产化需要考虑数据的合规性,这是数据资产化的物理保障。数据备份,即原始拷贝,是确保数据合规性的基础。数据资产化过程中,合规性是关键,没有合规性的数据资产化是空中楼阁,无法实现。

尽管会计准则在2023年有所修正,允许数据资产入表,但实际操作中存在困难,因为合规性难以认定。许多人试图通过法律手段来证明数据资产的合规性,但这并不是一个可持续的解决方案。数据资产化过程中的合规性问题可以通过CDM(Copy Data Management)技术来解决,因为CDM技术可以帮助确保数据的合规性和敏捷性。

数据资产化是现代金融业务中不可或缺的一部分,需要正确的技术和管理策略来实现。数据应该从其所在的IT基础设施中分离出来,以便在不同的地点或云平台上展现其价值,但同时不能带着IT属性到处移动。

数据资产化过程中的一个关键挑战是确保数据的真实性和有效性,这需要通过技术手段来实现,而不是仅仅依赖法律文件或印章来证明。为了克服这些挑战,需要新的技术和管理策略,以及对数据分布和计算资源的合理规划。

美国企业普遍采用多云或混合云架构,以避免将IT基础设施放在一个篮子里的风险。这种架构允许企业在多个云服务提供商之间分配应用和数据,从而提高灵活性和降低风险。

美国的CDM公司如Rubrik正在帮助企业实现数据的多云管理,这涉及到两个关键技术概念:cloud on和cloud out。Cloud on指的是数据以拷贝(copy)的方式在多云环境中扩展,而cloud out则是指数据在多云上的任何地方都可以被激活使用。这种技术使得企业能够低成本、灵活地管理和调用数据。

如果企业的数据分布在多个云上,那么在每个云上都存储一份数据的成本并不高,但可以实现数据的多云分布。CDM技术的核心在于,如果数据以元格式的拷贝形式分布在多云上,那么这些数据可以以虚拟拷贝服务的形式随时被激活使用。这意味着企业可以根据需要在任何云上启用计算资源,使用后可以释放资源,从而实现低成本和高灵活性。

数据分布和数据调度本质上是一回事。CDM技术可以贯通数据要素的五个层次的需求,帮助国内重要企业进行数据备份的国产化升级替换,从而避免使用过时的打包备份技术,实现数据管理的现代化。

CDM与AI之间存在双向赋能关系

国产数据备份技术不仅要成为AI大模型的数据底座,还要实现数据管理和提取,成为AI应用的引擎。CDM与AI之间存在双向赋能关系:一方面,生成式AI有助于提升原始数据的质量;另一方面,备份数据能够为AI大模型的推理提供数据支持。

应用数据敏捷性很重要,许多业务应用需要及时使用原始数据。在审计和业务仿真测试中,需要访问原始数据。

随着业务应用的扩展,这些应用场景不断展开,我们云信达正瞄准国家战略推动的AI数据管理基础设施市场,实现数据归集的标准化、规划数据要素的资产化、数据流转使用的服务化和敏捷化。

由于数据重要性客户对数据管理技术的关注,云信达公司在金融和电信行业中获得了广泛认可。在IDC发布的中国CDM市场研究报告中,公司连续三年排名第一。此外,公司联合大型用户起草了国内CDM的第一本白皮书。从中国软协的信创国产化替代市场摸底报告来看,公司连续三年在金融行业国产化领域排名第一。这表明公司在国产化替代市场中的领导地位,以及其在推动数据管理和AI应用发展方面的重要作用。

问答

Q:云信达未来会通过RAG(Retrieval-Augmented Generation)在数据检索备份上面有些动作吗?

A:数据备份主要分为两大类:结构化数据和非结构化数据。结构化数据具有数据字典,易于检索,而非结构化数据,如邮件和PDF文件等,检索起来较为困难。当前,RAG检索和量化技术正致力于对这些非结构化数据进行标签化处理,通过深度学习和检索技术进行初步识别,即数据的提取和存储。

美国的一家CDM(Copy Data Management)厂商去年推出了一个名为GA的RAG检索引擎,该引擎能够将备份数据直接对接至大模型进行检索。RAG技术是云信达今年的重点方向,旨在实现备份数据与大模型的直接对接,以提高数据检索的效率和准确性。深度学习和AI技术在数据管理和检索领域的应用正在成为必然趋势,云信达正致力于通过这些技术提升数据备份和检索的能力。

Q:如何评估数据资产的金融价值?企业如何培育具有高价值的数据资产?

A:要使数据成为资产,首先必须证明数据的合规性,即数据来源的真实性和有效性。这意味着数据不能是杂乱无章、错误或不完整的。证明数据的合规性,需要通过应用一致性和时间完整性的原始拷贝(copy)技术来实现穿透审计。这种技术手段可以帮助追踪数据的来源,确保数据的真实性和有效性。这是数据资产化过程中无法绕过的基本问题。只有解决了数据合规性问题,数据资产化才能真正实现其价值,从而在金融和其他领域中发挥其应有的作用。

Q:如果国内的CDM 应用案例和国外进行比较,大致处于怎样的状态?

A:关于国内与国外在CDM应用方面的差异,对于国外客户,数据资产化之前必须证明数据的合规性,这是数据来源真实性和有效性的关键。数据是业务的数字化描述,备份数据是对业务数据一致性的描述,业务一致性对于获取一次性数据至关重要。

国外的企业普遍采用多云或混合云架构,而国内企业在数据库选择上存在多样性,这导致了国内外在数据管理上的巨大差异。以美国为例,大多数企业使用Oracle、MySQL、PostgreSQL等数据库,而国内则存在多种国产数据库,这给数据的全局一致性控制带来了挑战。

CDM技术最初由Oracle和Veritas提出,旨在实现数据的快速获取和管理。他提到,美国的CDM厂商已经在中小企业中广泛应用,因为这些企业的数据通常存放在混合云和多云上,新兴的CDM厂商能够轻易切入这些市场。

关于中美之间在CDM应用上的差异,国内企业在信创国产化替代过程中坚持使用CDM新技术,而不是依赖老技术。国内企业在数据管理和备份技术上的升级和替代,以及如何利用CDM技术实现数据的敏捷性和合规性。云信达在CDM过程中结合人工智能技术,以满足用户对下一代数据需求的追求,即数据价值的提升。公司在数据管理和备份技术上的升级和替代,以及如何利用CDM技术实现数据的敏捷性和合规性,是当前的重点方向。

Q:云信达完成这轮融资之后的技术方向,有何规划?

A:数据备份在企业资产管理中很重要,它不仅是IT部门的职责,更是企业资产管理部门的职责,数据备份是业务数据的原始合规留痕,是数据资产化的基础,应该由资产管理部门负责,而IT部门负责实施。

云信达当前的三个主要业务方向为:数据备份的国产化替代、虚拟副本服务和数据管理基础设施。数据备份的国产化替代是公司业绩增长的第一推动力,而虚拟副本服务和数据管理基础设施是公司未来的增长点。我们正在研发一个数据管理基础设施,旨在实现合规数据与AI大模型的对接。数据资产化是不可避免的趋势,如果企业不能解决数据资产化问题,将面临巨大风险。也希望全社会正视数据资产化问题,因为随着时间的推移,数据管理和应用中的问题将越来越突出。

钛资本研究院观察

国产数据备份技术正成为AI大模型的数据基础,不仅支持数据管理和提取,还推动AI应用的发展。生成式AI与备份数据之间存在相互促进的关系,前者提升数据质量,后者为AI模型推理提供数据支持。数据的敏捷性对于业务应用至关重要,尤其在审计和业务测试中需要访问原始数据。国家战略推动AI数据管理基础设施市场,相关创业公司也应致力于实现数据归集标准化、数据要素资产化、数据流转服务化和敏捷化。

(来源:钛媒体)



用户登录