聊聊Token出海的生意经:模型开源给世界,中国赚什么?
1
本周末有一条 AI 新闻挺有意思,跟大家聊聊。
AI 编程工具 Cursor 在 3 月 19 日发布了新模型 Composer 2,官网上写的是「自有模型」。
Cursor 是目前全球最火的 AI 编程工具,本质上是一个深度集成了 AI 能力的 VS Code 修改版(国内类似的是字节的 TRAE)。从 2024 年 10 月 Composer 1 发布以来,外界就一直怀疑它的模型是套壳的,但找不到证据。
这次证据来了。发布不到 24 小时,一位开发者 @fynnso 想了个巧妙的办法:自己架一台服务器充当模型接口,然后在本地 Cursor 里把模型地址指向自己的服务器。这样 Cursor 发出的请求就暴露了:模型 ID 是 kimi-k2p5-rl-0317-s515-fast。
Composer 2 的底座,是月之暗面的 Kimi K2.5。
截图传开后,Cursor 第一时间堵了漏洞,但没什么用了。马斯克也转发确认。
Cursor 的一位负责人最终回应,承认使用了 K2.5,但强调是通过合作伙伴 Fireworks AI 获得的合法授权。Kimi 官方也确认了这条授权链。从法律层面看,Cursor 并没有侵权。
关于这件事的讨论其实很多了,但我想聊另一个视角。
2
过去两年,AI 领域有一条暗线。
2023 年,国内 AI 创业的主流姿态是拿 Meta 的 Llama 做微调。那时候行业的共识是「落后硅谷两个世代」。
2024 年 5 月,DeepSeek 发布了 V2。这家从量化基金幻方孵化出来的公司,用 MoE(混合专家模型)和 MLA(多模态学习架构)两项技术把模型的调用成本大幅压低。MoE 的逻辑我在之前的 DeepSeek 小传里写过,简单说就是不让大模型当全才,而是让它成为一个专家团,需要谁就唤醒谁。MLA 则大幅降低了内存占用,显存压力比传统架构降低了 67%-90%。
当时大家对 DeepSeek 的印象主要还是「便宜」。到 12 月 V3 发布,叠加了 FP8 低精度训练等新技术,官方披露的完整训练成本是 557.6 万美元,大约是 Meta Llama 3.1 训练成本的十分之一,性能却跟 GPT-4 基本持平。
然后是 2025 年 1 月,R1 发布。
R1 为什么重要,我在小传里也讲过。最核心的一点:它用纯强化学习(pure RL)达到了 OpenAI o1 的推理水平,不需要人工标注的题库,不需要有监督的微调,让模型自己跟自己博弈,自己评估什么是好的答案。这不是「我用更少的钱做了你做过的事」,而是「我走了一条没人走过的路」。
R1 之后,OpenAI 的奥特曼从最初暗讽 DeepSeek「只是复制已知工作」,到后来承认「DeepSeek 的出现改变了过去几年 OpenAI 遥遥领先的情况」。Meta 据报道成立了多个专项小组拆解 DeepSeek 的方法。
这是第一波。
第二波来自 Kimi。2026 年 1 月底,K2.5 发布。万亿参数的 MoE 模型,原生多模态,在代码生成、视觉理解和 Agent 工具调用上表现都不错。关键是它开源了,采用 Modified MIT 协议。
发布后不久,K2.5 在 OpenRouter(一个全球开发者用来选择和调用 AI 模型的聚合平台)的调用量冲到了第一名,排在 Gemini 3 Flash 和 Claude Sonnet 4.5 前面。当然,当时 K2.5 在 OpenClaw 生态里可以免费调用,这对调用量的拉动作用不小。
三年前,国内公司拿着 Llama 做微调。现在,硅谷的头部工具拿着 K2.5 做微调。这个变化的速度,超出了大多数人的预期。也是我们很多人之前没想到的。
3
讲到这里就要说到一个更基础的问题了:开源模型的「供应链」到底是什么?
大多数人对「开源」的理解停留在:免费下载,自己用。会认为 DeepSeek 和 Kimi 的价值就是「帮家人们把价格打下来了」。
首先,这当然没错,但真实的商业世界里,开源模型的流转路径远不止于此。
以 Cursor 这个案例为例,完整的链条是这样的:
Kimi 开源 K2.5 → 硅谷的推理服务商 Fireworks AI 获得授权,做托管、微调和强化学习训练 → Fireworks AI 转授权给 Cursor → Cursor 包装成 Composer 2 提供给全球开发者。
中间每一层都有技术服务、有授权协议、有商业利益分配。这依然是商业行为,不是公益行为。
作为商业行为,开源模型的供应链正在像过去实体制造领域的中国供应链一样,在全球产生影响。
一件优衣库的衣服,从纱线到面料到成衣,供应链也在中国。新能源汽车的电池、光伏组件、稀土加工,全球市场对中国供应链的依赖程度很深。
这种依赖的形成是靠几十年积累出来的成本优势、工程能力和规模效应。全球品牌选择中国供应链,跟喜欢跟谁交朋友关系不大,还是一笔经济账,即同样的品质,成本更低;同样的成本,交付更快。
AI 领域正在出现一个结构上有些类似的现象,原材料不是钢铁和棉花,是模型权重和推理算力。全球的 AI 应用层公司开始选择中国的开源模型做底座,驱动力也很朴素,就是好用,便宜。
其实在科技领域是有知名的先例的: Android。Google 开源 AOSP,高通做芯片适配,三星华为做设备定制,运营商做渠道。用户手里拿到的是一台三星手机,但操作系统的底层逻辑、API 规范和生态标准是 Google 定义的。供应链上每一层都在赚钱,定义底座的那一层,话语权也相当大。
当然这还只是一个可能的方向,不是既成事实。还有很远的路要走。
4
说到 AI 供应链,自然就要提到 2026 年开年的第一个 AI 大火的领域,养龙虾。
OpenClaw 是一个开源 Agent 框架,奥地利开发者 Peter Steinberger 的作品。龙虾需要一个大脑,或者说需要喂养饲料。OpenClaw 本身是框架,不提供模型,用户得自己选。【可以参考我之前的这篇:关于 OpenClaw,到底是谁养了虾,虾又会养谁】
K2.5 成了 OpenClaw 官方推荐的主力模型。大厂跟进,字节的 ArkClaw、腾讯的 QClaw、智谱的 AutoClaw、MiniMax 的 MaxClaw、阿里的 CoPaw……2026 年 3 月密集上线。其中底层调用量最大的模型里就包括了 K2.5、DeepSeek、Qwen 系列、MiniMax。开源模型持续占据了 token 流量的主流。
这条链路跟实体供应链也有一些相似之处。富士康给苹果代工,也给华为代工,也给小米代工。谁的手机卖得好,富士康都赚钱,因为它在供应链的位置足够底层。
如果说 Cursor 事件暴露的是 B 端供应链里的故事,龙虾生态展示的是 C 端供应链里的故事。两条链路指向同一个事实:底座模型的位置,越来越像基础设施了。
从龙虾也能看得出,基础设施的叙事也逐步变成现实。token 即未来 AI 时代的水电煤。
这个「水电煤」的市场到底有多大?有一组数据可以参考。
据华泰柏瑞基金的统计,中国整体日均 Token 消耗从 2024 年初的大约 1000 亿,到 2025 年年中突破 30 万亿,2026 年 2 月已经到了 180 万亿的量级。龙虾这类 Agent 应用每天全天候运行,消耗的 Token 量比过去的 Chatbot 对话高出几个数量级。
3 月 16 日,阿里宣布成立 Alibaba Token Hub(ATH)事业群,跟电商、云智能并列,由 CEO 吴泳铭直接带队。整个事业群围绕一件事:创造 Token、输送 Token、应用 Token。通义实验室造模型,MaaS 业务线搭平台,千问做 C 端,新成立的悟空事业部做 B 端。
Token 这个词以前只在技术社区里用,现在被一家万亿市值的公司拿来命名核心事业群。
如果 Token 真的在变成 AI 时代的水电煤,那谁能稳定、低成本地提供大量 Token,谁就在这个生态里有位置。开源模型在这件事上有天然优势:部署灵活、成本可控、不依赖单一供应商。DeepSeek 和 Kimi 这类把成本打下来同时保持性能的开源模型,就相当于这个市场里的低成本发电厂。他们会是这个市场里非常重要的一类玩家。
5
为什么中国的开源模型会受欢迎?
Cloudflare 做过实测,在 Workers AI 平台上用 K2.5 替代其他模型,推理成本降低了 77%。Cursor 自己披露的数据也说明了选择逻辑:Composer 2 性能略低于 GPT-5.4,但生成速度更快,成本最低。对一家年化收入 20 亿美元的公司来说,这笔账很好算。
再看龙虾生态。K2.5 在 OpenRouter 的定价大约是每百万输入 token 0.5 美元、输出 2.8 美元。Claude Sonnet 4.5 是 3 美元和 15 美元。差六到七倍。龙虾的使用场景是高频调用,一个复杂任务可能要跑上百步甚至上千步。在这种场景下,六倍的成本差异不是「省一点」的问题,是「能不能供养它跑得起来」的问题。
这跟 DeepSeek 当年打下来的价格基础一脉相承。V3 把每百万 token 的价格打到了人民币个位数,R1 更是把推理模型的价格拉到了 OpenAI o1 的几十分之一。当时我写 DeepSeek 小传的时候提过,任何一个市场里出现这样的价差,都会引起剧烈震荡。2.6 万块钱的手机现在只卖 1000 块钱,试想这种冲击力。
光便宜恐怕也不行。
DeepSeek 用那个价格提供的,是跟行业顶尖产品同等水平的服务。K2.5 也是一样,Cursor 的 Composer 2 在 Cursor 自己官方的测试 CursorBench 上的得分超过了 Claude Opus 4.6,而它的底座就是 K2.5。
这听起来似乎在说 K2.5 比 Claude 更强,当然也不能这么说。毕竟跟多数人用 ChatBot 的体感应该是不一样的。
Cursor 副总裁 Lee Robinson 在回应中提到,最终模型只有大约 1/4 的算力来自底座,剩下 3/4 是 Cursor 自己做的继续预训练和大规模强化学习。
联合创始人 Aman Sanger 进一步解释,团队在多个底座上做了评估,K2.5 在编程相关的指标上表现最强,然后在此基础上做了针对编程场景的继续预训练(调整任务分布和能力侧重)和 4 倍算力的强化学习训练。经过这些处理之后,Composer 2 在各项 benchmark 上的表现跟原始的 K2.5「已经非常不同了」。
换句话说,Cursor 选 K2.5 不是因为它「比 Claude 聪明」,而是因为它作为底座在编程方向上的潜力最好,经过大量定向训练之后能达到很高的性价比,能接近顶尖闭源模型,但成本低得多。
这其实也是整个开源生态的价值所在:不需要从零训练一个千亿参数的模型,拿一个强底座做垂直场景的深度优化,就能在特定任务上跟闭源巨头打得有来有回。Cursor 不是唯一这么做的,Cognition 的 Windsurf 也采用了类似路径。
DeepSeek 在成本端打开的空间,K2.5 在 Agent 和代码两个关键场景里进一步延伸了,构成了中国 AI 供应链的基本叙事。Kimi 的 K2.5 发布后得到了极高的关注,20 天收入超过 2025 全年。海外收入首次反超国内。三个月内估值从 43 亿美元涨到 180 亿。
说到估值,有一个对比值得想想。
Cursor 的新一轮融资传言估值 500 亿美元。它的估值历程是:2023 年 10 月 5000 万,2024 年 8 月 4 亿,12 月 26 亿,2025 年 11 月 293 亿。火箭式增长。
支撑这个增长的叙事很重要,「我们有自己的模型研发能力」。Composer 1 和 Composer 2 都在强化这个故事。
而提供底座的 Kimi,估值 180 亿美元,大约是 Cursor 目标估值的三分之一。放在供应链的语境里看,这就好比一个品牌商的市值是核心供应商的三倍,但品牌商的产品核心来自这个供应商。不是说这个比例一定不合理,Cursor 的产品力、用户粘性和商业模式确实有自身的价值,但至少说明市场对「底座」和「壳」的定价,可能还存在一些认知上的时间差。
类似的情况不止 Cursor 一家。前段时间很火的 Manus,主打 AI Agent,也没有自己的底层模型,完全依赖第三方。就因为产品和场景受到认同,被 Meta 开出了 20 亿的价码。
更值得关注的是横向对比。Kimi 180 亿美元,大约是 OpenAI 的 2%,Anthropic 的不到 10%。DeepSeek 目前没有公开融资,梁文锋用幻方的资金自给自足,84% 的控股几乎没被稀释。这种独立性让他可以不受投资人压力,专注长期研究。
这两家公司的底层技术输出正在被全球使用,它们的市场定价,还在被「全球 AI 基础设施提供商」这个身份重估。
不过也有一种完全不同的看法:模型层最终会变成大宗商品(commodity),真正的价值在离用户更近的应用层和数据层。按照这个逻辑,Cursor 的估值恰恰反映了它离用户更近、离钱更近。两种判断都有各自的道理,现在下结论可能为时过早。
6
为什么小公司也有做模型的技术机会呢?
3 月中旬,杨植麟受黄仁勋邀请在英伟达 GTC 大会演讲,是唯一受邀的中国大模型公司代表。他讲的是 Kimi 团队刚发表的论文《Attention Residuals》。
这篇论文的切入点很有意思。残差连接是深度学习领域从 2015 年 ResNet 提出后就一直沿用的基础架构组件,10 年来几乎没人质疑它。大多数团队选择在注意力机制、MoE 这些上层模块上做优化,Kimi 在尝试从最底层的默认配置去找空间。
马斯克和 Karpathy 都点赞了这篇文章。而论文的一作是一个 17 岁的高中生。
除了 Attention Residuals,Kimi 还开源了 MuonClip(替代用了 11 年的 Adam 优化器)和 Kimi Linear(线性注意力方案)。杨植麟在 GTC 上把这些统称为 Scaling Ladder,即通过严谨的规模化实验,从那些看似已经定型的基础技术里,找到新的改进空间。
把 DeepSeek 和 Kimi 放在一起看,能看到一个互补的格局。DeepSeek 的贡献主要在训练方法论层面,pure RL 重新定义了推理模型怎么训练,MoE 和 MLA 的极致工程把训练成本压到了行业的十分之一。Kimi 的贡献主要在网络架构的基础组件层面,从残差连接到优化器到注意力机制,在最底层做创新。
这两类工作有一个共同特点:它们都不是在跑分榜上争排名,而是在做范式层面的事情。梁文锋说过,很多人以为 AI 就是大力出奇迹,但真正的突破往往来自更巧妙的方法,而不是更多的资源。杨植麟在 GTC 上也表达了类似的意思:10 年前做研究主要靠发表新想法,但缺乏严谨的大规模实验来验证。现在有了充足的计算资源和 Scaling Ladder 方法论,能够更严格地从那些看似「已经定型」的技术里找到改进空间。
这跟国内很多大厂做模型的路径有些不同。大厂的资源更充裕,产品线也更丰富,但核心动作往往是围绕自己的业务做集成和优化。在「回到第一性原理去挑战底层假设」这件事上,受限于业务压力和组织惯性,大厂很难给出足够的空间和耐心。
回到供应链的类比。实体制造业的供应链里,真正有持久话语权的不是组装厂,而是定义核心零部件和技术标准的那一层:台积电的先进制程,高通的基带芯片,ARM 的指令集架构。AI 的供应链也一样,如果底座模型不只是「好用又便宜」,还在输出底层的技术组件和方法论,那它在供应链里的位置就不只是一个供应商,而更接近基础设施和标准制定者了。
当然,这还只是一个趋势,远没有到可以下结论的程度。
7
最后说几句开源的未来。
开源不是一件轻松的事。它需要几个条件同时满足:技术上得有足够强的模型,开源出去才有人用;商业上得忍得住短期让利的「亏损期」;战略上不能被价格战和短期竞争带偏。
比如 MiniMax 的最新模型 M2.7 已经转闭源了,权重不再公开。
前不久千问发生的事也一定程度说明了开源面临的挑战。3 月初,阿里千问的技术负责人林俊旸宣布离职,主流的说法是,技术理想和公司战略 KPI 之间存在不可调和的冲突。
Meta 方面,围绕 Llama 4 的测试和路线出现了内部争议,据报道 Meta 下一代模型可能转向闭源。大厂做开源,似乎总会遇到同样的问题:短期里,管理层很难看到开源的直接收益;长期里,开源团队很难按大厂的节奏汇报成果。
即便有了商业闭环,开源模型的窗口期仍然有很多不确定因素。地缘政治在收紧,DeepSeek 已经在一些国家被限制使用,美国有参议员公开呼吁加强对华 AI 管制。
竞争对手也在发力,OpenAI 在加速推出新模型。投资人的耐心也有限,不是每个股东都能接受「先让全世界免费用,长期再赚钱」这种延迟满足的逻辑。
如果未来更多的模型公司转向闭源,那些已经依赖上中国开源模型的全球应用层公司和开发者,就需要重新找方案了。
那么无论是 Cursor 和龙虾对 Kimi 模型的调用,还是去年的 DeepSeek 的震惊全球,中国开源模型到底意味着什么呢?
讨论时,很容易走向两个极端。一边有人带着民族情绪说赢麻了,一边可能从纯技术视角判断并没有新的范式因此不过如此。开源模型自然有其场景价值,也有其局限和问题。真正的未来,是技术+商业+产品不断迭代变化中发生的。
目前能看到的是,全球 AI 的基础设施正在从「美国提供模型,全世界做应用」的单一结构,慢慢变成一个参与方更多、层次更复杂的供应链体系。DeepSeek 和 Kimi 为代表的中国开源模型,是这个变化里的重要变量。但也只是变量之一。
这个过程才刚刚开始。也期待 AI 供应链能跑出不同的技术竞争力,正如很多全球知名的智能硬件品牌,也是珠三角供应链水平的外溢一样。
而这些更便宜、性能在持续追平的开源模型正在支撑很多主流编程工具和 Agent 框架。
对于我们这些普通从业者、开发者、内容生产者来说,最实际的收获可能就是:我们能更便宜地用上更多的 AI 产品。
(来源:新浪科技)




