Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释

2025年01月24日,13时20分06秒 OpenAI 阅读 103 views 次
DeepSeek 开源大模型的阳谋,切切实实震撼着美国 AI 公司。
最先陷入恐慌的,似乎是同样推崇开源的 Meta。
最近,有 Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子。帖子提到,国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌,因为在前者的低成本高歌猛进下,后者无法解释自己的超高预算的合理性。
原文如下:
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释
原贴链接:https://www.teamblind.com/post/Meta-genai-org-in-panic-mode-KccnF41n
帖子中提到的DeepSeek-V3DeepSeek-R1 分别发布于 2024 年 12 月 26 日和 2025 年 1 月 20 日。
其中,DeepSeek-V3 在发布时提到,该模型在多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
不过,更引人关注的是,这个参数量高达 671B 的大型语言模型训练成本仅 558 万美元。具体来说,它的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有 278.8 H800 GPU Hours。相较之下,Meta 的 Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释
而最近发布的 DeepSeek-R1 性能更猛 —— 在数学、代码、自然语言推理等任务上,它的性能比肩 OpenAI o1 正式版。而且模型在发布的同时,权重同步开源。很多人惊呼,原来 DeepSeek 才是真正的 OpenAI。UC Berkeley 教授 Alex Dimakis 则认为, DeepSeek 现在已经处于领先位置,美国公司可能需要迎头赶上了。
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释
看到这里,我们不难理解为何 Meta 的团队会陷入恐慌。如果今年推出的 Llama 4 没有点硬本事,他们「开源之光」的地位岌岌可危。
有人指出,其实该慌的不止 Meta,OpenAI、谷歌、Anthropic 又何尝没有受到挑战。「这是一件好事,我们可以实时看到公开竞争对创新的影响。」
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释
还有人担心起了英伟达的股价,表示「如果 DeeSeek 的创新是真的,那 AI 公司是否真的需要那么多显卡?」
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释
不过,也有人质疑,DeepSeek 究竟是靠创新还是靠蒸馏 OpenAI 的模型取胜?有人回复说,这可以从他们的发布的技术报告中找到答案。
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释
目前,我们还无法确定帖子的真实性。
不知道 Meta 后续将如何回应,即将到来的 Llama 4 又会达到怎样的性能。
标签:


用户登录