AI时代下,7.5万亿数据产业如何为中国经济产生价值?
来源:钛媒体

近期一则美国限制中国访问数据的消息引发关注。
5月18日消息,美国国立卫生研究院(NIH)近期已明确禁止中国访问人类基因组、疾病研究等数据库及关联数据。同时,美国SEER、TCGA、GTEx、GDC等多个公共数据库已对中国限制访问。
这一措施与2024年2月美国政府第14117号《关于防止受关注国家获取美国人数据》行政命令有关,该规定限制中国等“受关注国家”获取美国人的个人数据。
美国NIH的这一举措,让中国企业和研究机构体会到全球数据流动面临的限制,同时也让我们更清醒地认识到,数据资源对于中国科技进步与创新发展的关键意义。
国家数据局近期首次向地方数据管理部门印发《数字中国建设2025年行动方案》,要求到2025年底,数字中国建设取得重要进展,数字经济核心产业增加值占国内生产总值(GDP)比重超过10%,数据要素市场建设稳步推进,算力规模超过300EFLOPS。同时,国家数据局还表示,国家将继续加大财政资金投入,支持地方、行业建设一批基础性、公益性、长远性数据基础设施项目;用好超长期特别国债资金,加快构建国家数据基础设施架构;面向“十五五”,加快研制国家数据基础设施规划。
实际上,作为全球首个将数据纳入生产要素的国家,中国已初步构建起门类齐全的数据产业链。
数据显示,2024年中国年度数据生产总量达41.06泽字节,同比增长25%。截至目前,中国数据领域相关企业超19万家,数据产业规模超2万亿元。按照20%以上的年均增长率测算,2030年中国数据产业规模将达7.5万亿元。
5月17日举行的2025数据安全发展大会上,国家数据局党组书记、局长刘烈宏表示,中国数据资源丰富,产业体系完备,应用场景广阔,市场空间巨大,因此要维护数据安全,保护个人信息和商业秘密,促进数据高效流通使用,赋能实体经济。当前中国正谋划构建横向联通、纵向贯通、协调有力的数据基础设施体系,到2029年要基本建成国家数据基础设施主体结构。
大会期间,安恒信息(688023.SH)CTO刘博对钛媒体AGI表示,数据安全对于AI技术发展至关重要。精确数据可以在很多垂直模型当中应用,否则会产生“幻觉”,尤其企业构建垂直领域AI智能体当中,需要使用很多私有化数据进行应用。
刘博强调,无论是业务软件开发、数字化转型、大数据,还是企业竞争力和创新能力,AI 的确给中国带来了新一波新机遇,解决企业实际业务问题。AI时代下,所有应用都值得再做一遍,各个行业都将迎来新一轮产业升级。
AI数据既要保护也要价值利用
当前,数据已经超越了传统生产要素,成为驱动AI技术突破与产业变革的核心动力,也是推动数字中国建设和加快数字经济发展的新型核心生产要素。而高质量数据集不仅是AI模型性能跃升的基石,更重塑从技术研发到商业落地的全产业链条。
“在数字经济时代,数据就像‘工业血液’石油一样,是每个企业生存发展不可或缺的生产资料。”国家发展改革委价格监测中心副主任王建冬曾表示,近年来,中国数据要素市场发展进入快车道,但同时也面临统筹力度不足、市场发育不充分、跨境数据流通不畅等挑战。
据悉,数据要素是指在商品或服务生产并获得利益过程中投入的数据资源,主要为根据特定生产需求收集、整理、加工形成的信息、数据集以及数据产品。
为了保障数据要素规模化流动,AI产业链加速构建大模型数据集,主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集的规模大、多样性强、行业垂直属性强等特点,进行针对性的技术研发和适配。
北京大学计算机教授黄铁军表示,文本类数据包括文献、图书、论文、研究报告等数据,大部分已经用在大模型技术当中,未来还是需要更多图像、视频等非文本数据,成为大模型学习的重要来源之一。
因此,关注数据安全保护的同时,我们更要关注数据的价值,有助于推动中国 AI 技术能力不断提升。
根据中国电子信息产业发展研究院发布的《高质量数据集发展报告》显示,2024年,中国开发或应用AI的企业数量同比增长36%;全国地市级以上的地方公共数据开放平台数量增长7.5%,开放数据量增长7.1%,高质量数据集数量同比增长27.4%。同时,去年利用AI大模型的数据技术企业数量增长57.21%,数据应用企业增长37.14%。
报告指出,综合国家、地方政府发布的高质量数据集,目前涉及生态环保污染领域应用服务数据集较丰富;工业制造、生物医疗、农业、政务数据服务等行业的数据集数量处于中等水平;能源光伏、金融法律、交通物流、教育、气象遥感等行业数据集数量分列其后,行业在数据集的构建和开放方面持续推进。
赛迪研究院副院长刘文强表示,中国AI大模型的参数现在已达到几千亿级别,推进全国7个数据标注基地建设,构建医疗、工业、教育等领域335个高质量数据集,标注总规模达到了1.7万亿TB(太字节),支撑了121个国产大模型的研发。据悉,中国数据标注产业产值超过80亿元。
刘文强指出,目前从调研来看,数据汇聚和共享方面,数据存量小,产量低,数据集效果有待进一步提升。同时,数据供给和质量方面,数据的质量良莠不齐,缺乏主流高价值数据引领。而且,数据挖掘和利用方面存在算法偏见,加剧数据遗失,亟待建设高质量数据,把数据要素价值挖掘出来。

如今,随着AI时代到来,大数据变得至关重要。数据既要保护,又要被利用,如何利用AI数据产生真实价值,帮助企业实现降本增效,对于国内从业者来说是一道必答题。
阿里云智能集团副总裁安筱鹏表示,今天对自动驾驶的数据采集、数据清洗、数据标注、数据挖掘、流程训练、模型评测,已经从传统手动清洗、人工标注、人工挖掘,升级到基于AI大模型的自动化标注、挖掘,使得自动驾驶算法迭代从4个月缩短到7天,效率提升数(很多)倍。

安筱鹏认为,AI大模型是数据要素释放价值的最短路径。在基础大模型上做行业数据训练后,企业各种数据开发方式得到了巨大提升,使得应用构建流程简化效率提升70%,业务上线速度提升50%,数据分析周期缩短60%。
“我们可以看到,基于人的规则代码,演进到大模型生成代码;物理世界规律,到模型算法,再把算法代码和代码再去规划,从而形成了物理世界、数字世界和大模型智能世界。”安筱鹏强调,如今,数据服务的主体,已经从服务人转到服务AI。AI时代已经到来,人机交互的底层逻辑发生巨大变化,企业需要重新定义人机交互体验、重新定义流量入口,重新定义客户需求、市场、流程和新的业务系统。
对于AI大模型来说,数据规模将持续增长。
统计显示,2023年,中国的数据产量约占全球数据总产量的23%,位居世界第一,预计2025年中国数据总产量将达48.6ZB,约占全球的1/3。同时,2025年,全球数据交易规模有望增长到1445亿美元,到2030年则有望达到3011亿美元(约合人民币2.2万亿元)。
中国科学院院士徐涛在《数据赋能生命健康产业》演讲中指出,生命健康大数据作为重要的战略资源,具有复杂性和敏感性,因此需要建立全周期的安全体系。他提到,通过区块链加密、隐私计算等先进技术,可以实现生物样本数据的合规流通,预计为药企降低30%的研发成本。
中国工程院院士沈昌祥则提出了“可信计算3.0”解决方案。他强调,在数字经济时代,需要重构安全防线,我国自主研发的可信计算产品链已经覆盖了芯片、系统、应用全环节。通过构建主动免疫防护体系,能够有效抵御新型网络攻击。
数据规模暴增,AI下半场是智能体
“DeepSeek让政务服务企业迎来了一波新机遇,不需要买算力就能用AI大模型。”一位行业人士对钛媒体AGI表示,目前浙江省内很多场景都在使用基于DeepSeek和私有化数据的专用模型。
例如,中国开源AI模型DeepSeek可以准确辨识病症。浙江省中医院目前已经在妇产科、儿科、血液内科等多个科室的医疗场景进行试用AI医护助手。
安恒信息董事长范渊在会上表示,智能体与动态数据安全结合是一个必然,我们很快会进入到“智能体影响决策”的环境中,因为AI比人更懂数据,AI比人更懂业务,AI比人更懂行为。
“在传统的数据安全阶段,我们依然有很多问题没有得到解决。而今天,我们面临着大规模、高通量、快速率、更加开放的流通过程中,势必要求我们的动态安全,从静态保护到动态保护,从边界安全到内生融合安全,由封闭环境保护转向开放环境。”范渊称。
范渊强调,AI 的下半场一定是智能体,而智能体是大模型到场景应用的必然演进。因此,AI智能体正在从“条件自主”,不断演进到“完全自主”,让AI智能体成为安全工作者的伙伴,具备自主学习、深度进化能力,能与安全工作者共同定义问题,参与复杂决策,甚至给出创造性的方案, 能应对所有工作场景。

刘博进一步补充称,AI发展到现在,已不仅是一个“大模型”,而是需要混合智能体、MCP等技术和工具。大模型只是赋予用户思考和信息整合的能力,不能完全替代软件,而是需要通过智能体、MCP等方式提供给客户,让企业在不同场景中调用对应工具,从而大大提升企业工作效率。
早在2023年,安恒信息推出“恒脑・安全垂域大模型”,并在多个场景中成功应用。今年5月上旬,恒脑升级至3.0版本,成为国内首个安全AI智能体。据介绍,依托恒脑,安恒信息已经完成了500多个共创智能体,覆盖数十个场景,并且快速和现有产品进行了能力集成。
谈及具身智能安全,刘博表示,物理世界的安全非常重要,需要保证无人机、智能机器人等产品不被入侵,对于网络安全挑战更大,一旦入侵、操控就会让设备失控。因此,我们需要提供软件的安全系统保证具身智能操作系统、嵌入式系统、自身软件的数据安全、网络安全保护。

2025数据安全发展大会上,温州市、重庆市、武汉市、西安市、宁波市、青岛市等25家城市代表共同签订数据要素合作“百城行动”城市联盟,三十多家数据企业在现场集中签约,共同建设数据要素产业新生态。落地数源安全合规检测中心、温州瓯越数安实验室等6个高能级平台和实验室。
然而,当前中国仍然面临数据存量小,产量低、数据集质量良莠不齐,缺乏主流高价值数据引领、数据利用效率低等问题,需要做好数据源头管控,确保数据来源的可靠性、完整性,加强数据隐私和安全保障,推动数据安全评估能力建设。
刘烈宏在演讲中提出了三点意见:一是持续推进数据基础制度改革创新,加强数据要素综合试验区建设。二是加快健全数据流通利用基础设施,依托可信数据空间等技术试点,探索可复制、易推广、能持续的运营模式。三是大力推进数据要素市场化价值化实践,将海量数据(维权)资源优势转化为经济发展新动能。为探索数据价值释放路径,国家数据局支持在浙江等10个地方开展数据要素综合试验区建设。
刘烈宏在此前第八届数字中国建设峰会上强调,加快推进数字中国建设,要紧紧抓住AI发展带来的前所未有的机遇,推动数据要素市场化配置改革和“人工智能+”行动同频共振,持续推进高质量数据供给,加快推动数据要素与AI、科技创新、产业发展和赋能应用相结合,推动行业高质量数据集建设,推动数据产业高质量发展,为AI技术创新和产业应用提供坚实的数据基础。
(本文首发于钛媒体App,作者|林志佳)
责任编辑:杨赐
(来源:新浪科技)