DeepSeek不发V4，六小龙不敢过年

2026年02月12日,13时58分31秒科技新知阅读 31 views 次

距离DeepSeek用R1模型在全球AI舆论掀起地震的那个冬天，刚好一年。

从去年年中开始，DeepSeek的新模型就像一个“狼来了”的故事，几乎每隔一两个月，市场上就会传出新模型落地的消息。

在2026年初的这一月内，DeepSeek动作频频——

1 月中旬开源了名为 Engram 的“条件记忆”架构；1月27日发布了《DeepSeek-OCR 2：Visual Causal Flow》论文并同步开源新一代文档理解模型。似乎，那个传言中的新模型轮廓已经初步成型，就处于点火前的最后一秒。

将这些零散的技术更新拼接起来，会发现DeepSeek不再满足于做一个“聊天机器人”的基座，在算力受限的现实约束下，它正通过架构层面的技术优化，重塑大模型的能效上限。

在去年年末，谷歌、OpenAI等海外公司接连甩出王炸，单从性能上看，DeepSeek的V3.1和V3.2已有掉队趋势，无论是DeepSeek捍卫行业地位，还是公众对国产AI技术的叙事诉求，DeepSeek的新模型都到了箭在弦上的状态。

DeepSeek引而不发的这半年，虽然给了“X小龙”们难得的喘息与融资窗口，但随着新模型轮廓的清晰，一场更残酷的洗牌似乎在所难免。

还是以巧取胜

“少花钱办大事”，依旧是DeepSeek的底色。

1月12日，由创始人梁文峰亲自署名的 Engram 架构论文发布，根据其内容所示，DeepSeek通过Engram（直译为：记忆痕迹）架构为模型规模化扩展提供了新的技术路径，简单来说，就是DeepSeek设计了一种新架构，将大模型的“条件记忆”和“计算”分开，最终达到了降低错误、节省算力的目的。

目前技术社区对最新曝光的“MODEL1”存在两种猜想：一种观点认为，MODEL1可能是一个追求极致效率的轻量级模型，更适合边缘设备部署。另一种分析则表示它极有可能是一个“长序列专家”，专门为处理超长文档或代码项目而生。

尽管路线尚不明朗，但DeepSeek继续走极致性价比路线，是技术社区坚定的共识。

“效仿谷歌、OpenAI去高举高打，烧算力、烧训练，很容易将DeepSeek带入到一个死胡同。”某国内智能体开发者坦言，DeepSeek对社区最大的贡献，就是将Token的成本打下来，让更多的开发者得以接触AI开发，倘若学习海外顶级模型烧算力，这种低Token成本时代将一去不复返。

摩根士丹利的报告指出：“DeepSeek正在证明，AI能力的下一次飞跃可能不是来自更多的GPU，而是来自学会如何在约束条件下思考。”

就在前几天，外媒传出英伟达将对华出售H200芯片的消息，规模达数十万片。

“即便DeepSeek采购了部分H200芯片，也不会贸然烧算力玩火力覆盖那一套，这会破坏已经建立好的开源生态。”上述开发者坦言。

低廉的Token成本，高性能模型的开源以及相关的核心技术分享，有助于DeepSeek建立起一个去中心化与实用主义并用的技术生态，直接吸引大量渴望自主可控、私有化部署、魔改模型的开发者。其开源模型DeepSeek-V3、R1在HuggingFace累计下载量超千万次，迅速积累了大量开发者生态。

1月20日，全球最大的AI开源社区Hugging Face发布深度文章——《“DeepSeek时刻”一周年》，详述了中国AI力量在过去一年如何重塑全球开源生态。

文章指出，去年1月DeepSeek R1模型成为业界的重要时刻，它降低了技术与应用门槛，不仅是中国AI发展的转折点，更在全球范围内引发了开源模式的深刻变革，促使中国模型在下载量和影响力上全面崛起。

虽然坊间一直有DeepSeek专攻国产芯片训练一说，但实际上，其尚未完全脱离于英伟达的芯片架构。

这次曝光的MODEL1，就在GitHub上被分在FlashMLA代码序列之内。FlashMLA就是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具，是DeepSeek模型实现低成本、高性能的关键技术之一。

既然理论上还存在算力卡脖子的风险，就必须要做好防患未然，需要在有限算力的命题之下，将性价比发挥到极致。

开源的命门

DeepSeek 虽在开源界拥趸无数，但危机感从未消失。

实际上，开源生态的技术上限往往滞后于闭源。DeepSeek必须保迭代速度，以确保其开源模型的能力不被GPT-5、Gemini 3等最新一代闭源模型拉开代差，否则开发者会因为性能差距而回流。

从实际杀伤来看，Gemini 3已展示出碾压姿态。按照谷歌披露的测试数据，Gemini 3 Pro 毫无悬念地成为了目前地球上数学最强AI。在数学竞赛的“地狱模式”MathArena里，当包括GPT-5.1在内的其他大模型还在1%上下挣扎时，Gemini 3 Pro直接干到了23.4%。

编程能力方面，虽然在SWE-Bench上未拿SOTA——但绝对属于第一梯队。Live Code Bench的Elo得分超过2400分，在工具调用和终端操作基准测试中更是名列第一。

再配合谷歌全家桶的加持，开启Gemini Agent模式，并对Gemini授权，就能调动用户手里各种谷歌设备里的数据。

其强势表现，让OpenAI如坐针毡，立马推出GPT-5.2来接招，两大硅谷巨头的见招拆招，直接拉升了整个闭源生态的技术上限，这对于DeepSeek来说，绝非是什么好事。

“DeepSeek的命门一直都不是c端市场上，有多少人在用，而是开源生态的护城河。”前经纬投资人庄明浩表示。

OpenAI需要C端，因为走的是SaaS订阅模式，必须靠每个月20美元来维持昂贵的推理成本。但对于DeepSeek来说，C端更像是一个“技术展示厅”和“RLHF数据采集器”。

所以，在没有新款模型面世之前，DeepSeek也要即时将V3.1和V3.2这样的改款产品推向市场，且将MoE架构作为其技术文档或论文的核心内容。

由于其高性能、且开源的特征，现在全球的AI极客、大学实验室、创业公司，在做“蒸馏”、“微调”、“魔改”时，都会将DeepSeek列为第一梯队的选择。

根据OpenRouter的公开统计，DeepSeek-V3和R1的Token吞吐量在短时间内占据了显著份额，两个模型加起来一度占了所有开源Token的一半还多。

当这些极客、开发者、程序员所熟悉的超参、积累的Prompt技巧，都是基于DeepSeek架构，那在一定程度上会增加他们更换模型的成本，形成了隐形的技术定价权。

根据OpenRouter的这份统计来看，闭源模型依旧占据了这个世界的主流，比例约为70%，DeepSeek只是在开源生态里保持领先地位。

所以，当闭源两大巨头开始疯狂内卷之时，DeepSeek的V3.1和V3.2这类改款模型，自然被拉开技术代差，开源社区的忠诚度也就很难保证了。

这股来自硅谷的技术压迫感，不仅让DeepSeek不敢停歇，也如多米诺骨牌一般，迅速传导到了国内的大模型赛道。

被DeepSeek误伤

DeepSeek在开源生态上的极致性价比，多少给国内同行带来了窒息感。

虽然DeepSeek的主战场在开源生态，但在C端着实给一众国产AI独角兽造成不小压力，迟迟未能拿出V4或者R2，倒是给了喘息之机。

去年今日，随着DeepSeek的月活在一众国产AIGC App中强势登顶，改变了国产大模型的叙事逻辑，直接加速AI在大众生活中渗透率，让腾讯、阿里、字节这类传统互联网大厂意识到，AI即入口。

在DeepSeek爆火出圈之前，月之暗面还是投流大战的主要参与者之一，在跟豆包死磕C端。有数据显示，2024年3月至11月，Kimi的广告投放金额曾超过6亿元，单月最高投放近5000万元。

之后，月之暗面这种体量的公司就很难再上投流的牌桌，大厂已经将投流的门槛拉升数倍。

倘若DeepSeek如传言中，在去年年中拿出全新模型，以智谱、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物为代表的六小龙们，处境就更为尴尬。卷资本卷不过大厂，卷技术不如DeepSeek，至少在各大开源社区里，热度最高的国产AI技术分享，大多来自DeepSeek、阿里等技术团队。

以当下的视角复盘，不管是芯片层面的卡脖子，还是DeepSeek自身技术所致，六小龙们至少获得了半年的调整时间，搞钱成为了他们的集体共识——月之暗面在2025年12月完成了5亿美元的C轮融资，并在今年1月27日推出新一代多模态大模型K2.5。在今年1月，智谱与MiniMax接连登陆港交所，暂时得以喘息。随后，阶跃星辰在近期也宣布了完成B+轮融资，获得50亿元融资。

即便得到相应的资本扶持，六小龙们的日子也并不好过，在这个即将到来的春节，互联网大厂将对AI入口的疯狂砸钱。字节将把火山引擎送上春晚舞台，试图将AI能力直接推向全民场景；阿里一举拿下多个卫视2026春晚独家总冠，助推通义千问再加速C端破圈；腾讯则直接拿出10亿元真金白银为元宝铺路，拓新的同时加速AI与社交新形态的融合。

这些不差钱的互联网大厂，把他们最擅长的那套流量逻辑搬到了AI赛道上，不管最终效果几何，所产生的冲击余波不可忽视。

“最为重要的是，DeepSeek新模型和大厂集体烧钱砸流量入口极有可能是在同一时间发生，所产生的叠加效应很难预估。”有分析人士指出，这一波操作下来，留给六小龙们可持续发展的赛道，就仅剩垂直赛道的深耕了。

对于那些仍在夹缝中求生的独角兽们而言，讲故事的时代算是终结了，在这个由DeepSeek定义下限、由巨头定义上限的折叠空间里，要么像DeepSeek一样具备基建属性，要么在垂直赛道里扎得足够深，深到巨头们的触手难以触碰。

至于DeepSeek那张迟迟未发的V4，其最大的威慑力，恰恰在于不按下扳机。在这个充满不确定性的战场上，谁都知道它会来，但都无法预估之后的连锁反应。

当下，DeepSeek面对的不再仅仅是国产模型的技术自证压力，更像是一场关于开源生态主导权的保卫战。于情于理，那个在传闻中的V4模型必须登场——无论是为了狙击Gemini 3的碾压，还是为了终结国内市场的混战。

(来源：新浪科技)

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

关联资讯:

用户登录