聊聊Token出海的生意经：模型开源给世界，中国赚什么？

2026年03月26日,13时13分55秒科技新知阅读 36 views 次

本周末有一条 AI 新闻挺有意思，跟大家聊聊。

AI 编程工具 Cursor 在 3 月 19 日发布了新模型 Composer 2，官网上写的是「自有模型」。

Cursor 是目前全球最火的 AI 编程工具，本质上是一个深度集成了 AI 能力的 VS Code 修改版（国内类似的是字节的 TRAE）。从 2024 年 10 月 Composer 1 发布以来，外界就一直怀疑它的模型是套壳的，但找不到证据。

这次证据来了。发布不到 24 小时，一位开发者 @fynnso 想了个巧妙的办法：自己架一台服务器充当模型接口，然后在本地 Cursor 里把模型地址指向自己的服务器。这样 Cursor 发出的请求就暴露了：模型 ID 是 kimi-k2p5-rl-0317-s515-fast。

Composer 2 的底座，是月之暗面的 Kimi K2.5。

截图传开后，Cursor 第一时间堵了漏洞，但没什么用了。马斯克也转发确认。

聊聊Token出海的生意经：模型开源给世界，中国赚什么？

Cursor 的一位负责人最终回应，承认使用了 K2.5，但强调是通过合作伙伴 Fireworks AI 获得的合法授权。Kimi 官方也确认了这条授权链。从法律层面看，Cursor 并没有侵权。

关于这件事的讨论其实很多了，但我想聊另一个视角。

过去两年，AI 领域有一条暗线。

2023 年，国内 AI 创业的主流姿态是拿 Meta 的 Llama 做微调。那时候行业的共识是「落后硅谷两个世代」。

2024 年 5 月，DeepSeek 发布了 V2。这家从量化基金幻方孵化出来的公司，用 MoE（混合专家模型）和 MLA（多模态学习架构）两项技术把模型的调用成本大幅压低。MoE 的逻辑我在之前的 DeepSeek 小传里写过，简单说就是不让大模型当全才，而是让它成为一个专家团，需要谁就唤醒谁。MLA 则大幅降低了内存占用，显存压力比传统架构降低了 67%-90%。

当时大家对 DeepSeek 的印象主要还是「便宜」。到 12 月 V3 发布，叠加了 FP8 低精度训练等新技术，官方披露的完整训练成本是 557.6 万美元，大约是 Meta Llama 3.1 训练成本的十分之一，性能却跟 GPT-4 基本持平。

然后是 2025 年 1 月，R1 发布。

R1 为什么重要，我在小传里也讲过。最核心的一点：它用纯强化学习（pure RL）达到了 OpenAI o1 的推理水平，不需要人工标注的题库，不需要有监督的微调，让模型自己跟自己博弈，自己评估什么是好的答案。这不是「我用更少的钱做了你做过的事」，而是「我走了一条没人走过的路」。

R1 之后，OpenAI 的奥特曼从最初暗讽 DeepSeek「只是复制已知工作」，到后来承认「DeepSeek 的出现改变了过去几年 OpenAI 遥遥领先的情况」。Meta 据报道成立了多个专项小组拆解 DeepSeek 的方法。

这是第一波。

第二波来自 Kimi。2026 年 1 月底，K2.5 发布。万亿参数的 MoE 模型，原生多模态，在代码生成、视觉理解和 Agent 工具调用上表现都不错。关键是它开源了，采用 Modified MIT 协议。

发布后不久，K2.5 在 OpenRouter（一个全球开发者用来选择和调用 AI 模型的聚合平台）的调用量冲到了第一名，排在 Gemini 3 Flash 和 Claude Sonnet 4.5 前面。当然，当时 K2.5 在 OpenClaw 生态里可以免费调用，这对调用量的拉动作用不小。

三年前，国内公司拿着 Llama 做微调。现在，硅谷的头部工具拿着 K2.5 做微调。这个变化的速度，超出了大多数人的预期。也是我们很多人之前没想到的。

讲到这里就要说到一个更基础的问题了：开源模型的「供应链」到底是什么？

大多数人对「开源」的理解停留在：免费下载，自己用。会认为 DeepSeek 和 Kimi 的价值就是「帮家人们把价格打下来了」。

首先，这当然没错，但真实的商业世界里，开源模型的流转路径远不止于此。

以 Cursor 这个案例为例，完整的链条是这样的：

Kimi 开源 K2.5 → 硅谷的推理服务商 Fireworks AI 获得授权，做托管、微调和强化学习训练 → Fireworks AI 转授权给 Cursor → Cursor 包装成 Composer 2 提供给全球开发者。

中间每一层都有技术服务、有授权协议、有商业利益分配。这依然是商业行为，不是公益行为。

作为商业行为，开源模型的供应链正在像过去实体制造领域的中国供应链一样，在全球产生影响。

一件优衣库的衣服，从纱线到面料到成衣，供应链也在中国。新能源汽车的电池、光伏组件、稀土加工，全球市场对中国供应链的依赖程度很深。

这种依赖的形成是靠几十年积累出来的成本优势、工程能力和规模效应。全球品牌选择中国供应链，跟喜欢跟谁交朋友关系不大，还是一笔经济账，即同样的品质，成本更低；同样的成本，交付更快。

AI 领域正在出现一个结构上有些类似的现象，原材料不是钢铁和棉花，是模型权重和推理算力。全球的 AI 应用层公司开始选择中国的开源模型做底座，驱动力也很朴素，就是好用，便宜。

其实在科技领域是有知名的先例的： Android。Google 开源 AOSP，高通做芯片适配，三星华为做设备定制，运营商做渠道。用户手里拿到的是一台三星手机，但操作系统的底层逻辑、API 规范和生态标准是 Google 定义的。供应链上每一层都在赚钱，定义底座的那一层，话语权也相当大。

当然这还只是一个可能的方向，不是既成事实。还有很远的路要走。

说到 AI 供应链，自然就要提到 2026 年开年的第一个 AI 大火的领域，养龙虾。

OpenClaw 是一个开源 Agent 框架，奥地利开发者 Peter Steinberger 的作品。龙虾需要一个大脑，或者说需要喂养饲料。OpenClaw 本身是框架，不提供模型，用户得自己选。【可以参考我之前的这篇：关于 OpenClaw，到底是谁养了虾，虾又会养谁】

K2.5 成了 OpenClaw 官方推荐的主力模型。大厂跟进，字节的 ArkClaw、腾讯的 QClaw、智谱的 AutoClaw、MiniMax 的 MaxClaw、阿里的 CoPaw……2026 年 3 月密集上线。其中底层调用量最大的模型里就包括了 K2.5、DeepSeek、Qwen 系列、MiniMax。开源模型持续占据了 token 流量的主流。

这条链路跟实体供应链也有一些相似之处。富士康给苹果代工，也给华为代工，也给小米代工。谁的手机卖得好，富士康都赚钱，因为它在供应链的位置足够底层。

如果说 Cursor 事件暴露的是 B 端供应链里的故事，龙虾生态展示的是 C 端供应链里的故事。两条链路指向同一个事实：底座模型的位置，越来越像基础设施了。

从龙虾也能看得出，基础设施的叙事也逐步变成现实。token 即未来 AI 时代的水电煤。

这个「水电煤」的市场到底有多大？有一组数据可以参考。

据华泰柏瑞基金的统计，中国整体日均 Token 消耗从 2024 年初的大约 1000 亿，到 2025 年年中突破 30 万亿，2026 年 2 月已经到了 180 万亿的量级。龙虾这类 Agent 应用每天全天候运行，消耗的 Token 量比过去的 Chatbot 对话高出几个数量级。

3 月 16 日，阿里宣布成立 Alibaba Token Hub（ATH）事业群，跟电商、云智能并列，由 CEO 吴泳铭直接带队。整个事业群围绕一件事：创造 Token、输送 Token、应用 Token。通义实验室造模型，MaaS 业务线搭平台，千问做 C 端，新成立的悟空事业部做 B 端。

Token 这个词以前只在技术社区里用，现在被一家万亿市值的公司拿来命名核心事业群。

如果 Token 真的在变成 AI 时代的水电煤，那谁能稳定、低成本地提供大量 Token，谁就在这个生态里有位置。开源模型在这件事上有天然优势：部署灵活、成本可控、不依赖单一供应商。DeepSeek 和 Kimi 这类把成本打下来同时保持性能的开源模型，就相当于这个市场里的低成本发电厂。他们会是这个市场里非常重要的一类玩家。

为什么中国的开源模型会受欢迎？

Cloudflare 做过实测，在 Workers AI 平台上用 K2.5 替代其他模型，推理成本降低了 77%。Cursor 自己披露的数据也说明了选择逻辑：Composer 2 性能略低于 GPT-5.4，但生成速度更快，成本最低。对一家年化收入 20 亿美元的公司来说，这笔账很好算。

再看龙虾生态。K2.5 在 OpenRouter 的定价大约是每百万输入 token 0.5 美元、输出 2.8 美元。Claude Sonnet 4.5 是 3 美元和 15 美元。差六到七倍。龙虾的使用场景是高频调用，一个复杂任务可能要跑上百步甚至上千步。在这种场景下，六倍的成本差异不是「省一点」的问题，是「能不能供养它跑得起来」的问题。

这跟 DeepSeek 当年打下来的价格基础一脉相承。V3 把每百万 token 的价格打到了人民币个位数，R1 更是把推理模型的价格拉到了 OpenAI o1 的几十分之一。当时我写 DeepSeek 小传的时候提过，任何一个市场里出现这样的价差，都会引起剧烈震荡。2.6 万块钱的手机现在只卖 1000 块钱，试想这种冲击力。

光便宜恐怕也不行。

DeepSeek 用那个价格提供的，是跟行业顶尖产品同等水平的服务。K2.5 也是一样，Cursor 的 Composer 2 在 Cursor 自己官方的测试 CursorBench 上的得分超过了 Claude Opus 4.6，而它的底座就是 K2.5。

这听起来似乎在说 K2.5 比 Claude 更强，当然也不能这么说。毕竟跟多数人用 ChatBot 的体感应该是不一样的。

Cursor 副总裁 Lee Robinson 在回应中提到，最终模型只有大约 1/4 的算力来自底座，剩下 3/4 是 Cursor 自己做的继续预训练和大规模强化学习。

联合创始人 Aman Sanger 进一步解释，团队在多个底座上做了评估，K2.5 在编程相关的指标上表现最强，然后在此基础上做了针对编程场景的继续预训练（调整任务分布和能力侧重）和 4 倍算力的强化学习训练。经过这些处理之后，Composer 2 在各项 benchmark 上的表现跟原始的 K2.5「已经非常不同了」。

换句话说，Cursor 选 K2.5 不是因为它「比 Claude 聪明」，而是因为它作为底座在编程方向上的潜力最好，经过大量定向训练之后能达到很高的性价比，能接近顶尖闭源模型，但成本低得多。

这其实也是整个开源生态的价值所在：不需要从零训练一个千亿参数的模型，拿一个强底座做垂直场景的深度优化，就能在特定任务上跟闭源巨头打得有来有回。Cursor 不是唯一这么做的，Cognition 的 Windsurf 也采用了类似路径。

聊聊Token出海的生意经：模型开源给世界，中国赚什么？

DeepSeek 在成本端打开的空间，K2.5 在 Agent 和代码两个关键场景里进一步延伸了，构成了中国 AI 供应链的基本叙事。Kimi 的 K2.5 发布后得到了极高的关注，20 天收入超过 2025 全年。海外收入首次反超国内。三个月内估值从 43 亿美元涨到 180 亿。

说到估值，有一个对比值得想想。

Cursor 的新一轮融资传言估值 500 亿美元。它的估值历程是：2023 年 10 月 5000 万，2024 年 8 月 4 亿，12 月 26 亿，2025 年 11 月 293 亿。火箭式增长。

支撑这个增长的叙事很重要，「我们有自己的模型研发能力」。Composer 1 和 Composer 2 都在强化这个故事。

而提供底座的 Kimi，估值 180 亿美元，大约是 Cursor 目标估值的三分之一。放在供应链的语境里看，这就好比一个品牌商的市值是核心供应商的三倍，但品牌商的产品核心来自这个供应商。不是说这个比例一定不合理，Cursor 的产品力、用户粘性和商业模式确实有自身的价值，但至少说明市场对「底座」和「壳」的定价，可能还存在一些认知上的时间差。

类似的情况不止 Cursor 一家。前段时间很火的 Manus，主打 AI Agent，也没有自己的底层模型，完全依赖第三方。就因为产品和场景受到认同，被 Meta 开出了 20 亿的价码。

更值得关注的是横向对比。Kimi 180 亿美元，大约是 OpenAI 的 2%，Anthropic 的不到 10%。DeepSeek 目前没有公开融资，梁文锋用幻方的资金自给自足，84% 的控股几乎没被稀释。这种独立性让他可以不受投资人压力，专注长期研究。

这两家公司的底层技术输出正在被全球使用，它们的市场定价，还在被「全球 AI 基础设施提供商」这个身份重估。

不过也有一种完全不同的看法：模型层最终会变成大宗商品（commodity），真正的价值在离用户更近的应用层和数据层。按照这个逻辑，Cursor 的估值恰恰反映了它离用户更近、离钱更近。两种判断都有各自的道理，现在下结论可能为时过早。

为什么小公司也有做模型的技术机会呢？

3 月中旬，杨植麟受黄仁勋邀请在英伟达 GTC 大会演讲，是唯一受邀的中国大模型公司代表。他讲的是 Kimi 团队刚发表的论文《Attention Residuals》。

这篇论文的切入点很有意思。残差连接是深度学习领域从 2015 年 ResNet 提出后就一直沿用的基础架构组件，10 年来几乎没人质疑它。大多数团队选择在注意力机制、MoE 这些上层模块上做优化，Kimi 在尝试从最底层的默认配置去找空间。

马斯克和 Karpathy 都点赞了这篇文章。而论文的一作是一个 17 岁的高中生。

除了 Attention Residuals，Kimi 还开源了 MuonClip（替代用了 11 年的 Adam 优化器）和 Kimi Linear（线性注意力方案）。杨植麟在 GTC 上把这些统称为 Scaling Ladder，即通过严谨的规模化实验，从那些看似已经定型的基础技术里，找到新的改进空间。

把 DeepSeek 和 Kimi 放在一起看，能看到一个互补的格局。DeepSeek 的贡献主要在训练方法论层面，pure RL 重新定义了推理模型怎么训练，MoE 和 MLA 的极致工程把训练成本压到了行业的十分之一。Kimi 的贡献主要在网络架构的基础组件层面，从残差连接到优化器到注意力机制，在最底层做创新。

这两类工作有一个共同特点：它们都不是在跑分榜上争排名，而是在做范式层面的事情。梁文锋说过，很多人以为 AI 就是大力出奇迹，但真正的突破往往来自更巧妙的方法，而不是更多的资源。杨植麟在 GTC 上也表达了类似的意思：10 年前做研究主要靠发表新想法，但缺乏严谨的大规模实验来验证。现在有了充足的计算资源和 Scaling Ladder 方法论，能够更严格地从那些看似「已经定型」的技术里找到改进空间。

这跟国内很多大厂做模型的路径有些不同。大厂的资源更充裕，产品线也更丰富，但核心动作往往是围绕自己的业务做集成和优化。在「回到第一性原理去挑战底层假设」这件事上，受限于业务压力和组织惯性，大厂很难给出足够的空间和耐心。

回到供应链的类比。实体制造业的供应链里，真正有持久话语权的不是组装厂，而是定义核心零部件和技术标准的那一层：台积电的先进制程，高通的基带芯片，ARM 的指令集架构。AI 的供应链也一样，如果底座模型不只是「好用又便宜」，还在输出底层的技术组件和方法论，那它在供应链里的位置就不只是一个供应商，而更接近基础设施和标准制定者了。

当然，这还只是一个趋势，远没有到可以下结论的程度。

最后说几句开源的未来。

开源不是一件轻松的事。它需要几个条件同时满足：技术上得有足够强的模型，开源出去才有人用；商业上得忍得住短期让利的「亏损期」；战略上不能被价格战和短期竞争带偏。

比如 MiniMax 的最新模型 M2.7 已经转闭源了，权重不再公开。

前不久千问发生的事也一定程度说明了开源面临的挑战。3 月初，阿里千问的技术负责人林俊旸宣布离职，主流的说法是，技术理想和公司战略 KPI 之间存在不可调和的冲突。

Meta 方面，围绕 Llama 4 的测试和路线出现了内部争议，据报道 Meta 下一代模型可能转向闭源。大厂做开源，似乎总会遇到同样的问题：短期里，管理层很难看到开源的直接收益；长期里，开源团队很难按大厂的节奏汇报成果。

即便有了商业闭环，开源模型的窗口期仍然有很多不确定因素。地缘政治在收紧，DeepSeek 已经在一些国家被限制使用，美国有参议员公开呼吁加强对华 AI 管制。

竞争对手也在发力，OpenAI 在加速推出新模型。投资人的耐心也有限，不是每个股东都能接受「先让全世界免费用，长期再赚钱」这种延迟满足的逻辑。

如果未来更多的模型公司转向闭源，那些已经依赖上中国开源模型的全球应用层公司和开发者，就需要重新找方案了。

那么无论是 Cursor 和龙虾对 Kimi 模型的调用，还是去年的 DeepSeek 的震惊全球，中国开源模型到底意味着什么呢？

讨论时，很容易走向两个极端。一边有人带着民族情绪说赢麻了，一边可能从纯技术视角判断并没有新的范式因此不过如此。开源模型自然有其场景价值，也有其局限和问题。真正的未来，是技术+商业+产品不断迭代变化中发生的。

目前能看到的是，全球 AI 的基础设施正在从「美国提供模型，全世界做应用」的单一结构，慢慢变成一个参与方更多、层次更复杂的供应链体系。DeepSeek 和 Kimi 为代表的中国开源模型，是这个变化里的重要变量。但也只是变量之一。

这个过程才刚刚开始。也期待 AI 供应链能跑出不同的技术竞争力，正如很多全球知名的智能硬件品牌，也是珠三角供应链水平的外溢一样。

而这些更便宜、性能在持续追平的开源模型正在支撑很多主流编程工具和 Agent 框架。

对于我们这些普通从业者、开发者、内容生产者来说，最实际的收获可能就是：我们能更便宜地用上更多的 AI 产品。

(来源：新浪科技)

2026年 7月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关联资讯:

用户登录