从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术



-
推理模型可以非常准确地解决可验证的任务,比如数学和编程任务。 -
推理模型解决这些问题的方法与传统 LLM 的方法截然不同。
-
仔细考虑复杂问题的每个部分。 -
将复杂问题分解为更小的可解决部分。 -
批评其自身的(部分)解决方案并发现错误。 -
探索许多替代解决方案。




-
在 ARC-AGI 基准测试中得分为 87.5%——AGI 的「北极星」,五年来一直保持不败 ——GPT-4o 的准确率为 5%。o3 是第一个在 ARC-AGI 上超过人类水平 85% 的模型。 -
在 SWE-Bench Verified 上的准确率为 71.7%,在 Codeforces 上的 Elo 得分为 2727,使 o3 跻身全球前 200 名竞争性程序员之列。 -
在 EpochAI 的 FrontierMath 基准测试中的准确率为 25.2%,相比之前最佳的 2.0% 的准确率大幅提高。








-
通过强化学习进行更多训练。 -
更多推理时间计算(即推理时间扩展)。

-
训练神经奖励模型或验证器。 -
使用此模型对 LLM 输出进行评分。 -
使用预测分数作为奖励或验证信号。

-
生成更多 token(即更长的输出序列)。 -
生成多个输出。



-
采样几个输出或轨迹。 -
使用奖励模型(或其他评分机制)选择最佳输出。 -
使用这些输出进行训练。

-
外部式:反馈来自某些外部验证器或模块。 -
内部式:LLM 为其自身生成提供反馈。


-
使用多头隐注意力(MLA)。 -
采用优化的 MoE 结构(例如,细粒度和共享专家)。 -
在预训练期间使用多 token 预测目标。 -
放弃通常用于训练 MoE 模型的负载平衡损失。 -
通过采用 [2] 中提出的新型量化训练策略,在整个训练过程中将精度降低到 FP8。

-
降低强化学习训练成本。 -
不再需要批评模型,该模型(通常)与策略模型(即 LLM 本身)大小相同。
-
准确度奖励:评估模型的响应是否正确。 -
格式奖励:强制模型以一定格式输出。




-
使用了正确的推理模板或结构。 -
给出的最终解答是正确的。
-
通过提示词调用一个模型(例如 DeepSeek-v3)生成长思维链数据,可以使用少量示例,也可以指示模型生成详细答案并进行反思和验证。 -
使用 R1-Zero 模型生成大量长思维链输出,然后让人类进行后处理并选择模型的最佳输出。
-
整编一组多样化的基于推理的提示词。 -
使用第二阶段的模型生成候选轨迹。 -
执行拒绝采样,即根据每个轨迹的质量和正确性过滤并选择最佳轨迹。
-
基于规则的奖励(与 R1-Zero 相同),用于基于推理的问题。 -
针对一般数据使用神经奖励模型 —— 使用人类偏好对进行训练,正如 RLHF 一样。


-
可能很难使用模型生成这种特定风格的输出。 -
很难正确验证这种长输出。



-
通过增加强化学习训练,蒸馏模型的性能可能得到进一步提升。 -
「超越智能的边界」,即创建超过 DeepSeek-R1 等模型性能的新推理模型,仍然需要强大的基础模型和大规模的强化学习训练。
-
Sky-T1 和 Sky-T1-Flash:https://novasky-ai.github.io/posts/sky-t1/ -
Bespoke Stratos:https://www.bespokelabs.ai/blog/bespoke-stratos-the-unreasonable-effectiveness-of-reasoning-distillation -
LIMO:https://arxiv.org/abs/2502.03387 -
S1:https://arxiv.org/abs/2501.19393 -
RedStar:https://arxiv.org/abs/2501.11284
-
如何为长思维链实现安全训练? -
通用任务能力 / 推理能力之间的最佳平衡是什么? -
SFT 在训练推理模型中的最佳作用是什么? -
如何最大限度地减少长思维链中的「过度思考」? -
如何实现推理模型的高效托管?
-
「DeepSeek 接班 OpenAI」,最新开源的 R1 推理模型,让 AI 圈爆了 -
Sebastian Raschka:关于 DeepSeek R1 和推理模型,我有几点看法 -
两万字长文深度解密 DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈? -
从想太多到想不透?DeepSeek-R1 等长推理模型也存在「思考不足」问题 -
哥德尔 - Prover 超过 DeepSeek-Prover,金驰、陈丹琦团队造出当前最强形式化推理模型 -
817 样本激发 7 倍推理性能:上交大「少即是多」定律挑战 RL Scaling 范式 -
450 美元训练一个「o1-preview」?UC 伯克利开源 32B 推理模型 Sky-T1,AI 社区沸腾了 -
训练 1000 样本就能超越 o1,李飞飞等人画出 AI 扩展新曲线 -
8 卡 32B 模型超越 o1 预览版、DeepSeek V3,普林斯顿、北大提出层次化 RL 推理新范式 -
200 多行代码,超低成本复现 DeepSeek R1「Aha Moment」!复旦大学开源 -
执行推理时能对齐语言模型吗?谷歌 InfAlign 带来一种对齐新思路 -
刚刚,DeepSeek 官方发布 R1 模型推荐设置,这才是正确用法 -
啊!DeepSeek-R1、o3-mini 能解奥数题却算不了多位数乘法? -
扩散模型也能推理时 Scaling,谢赛宁团队重磅研究可能带来文生图新范式 -
重磅发现!DeepSeek R1 方法成功迁移到视觉领域,多模态 AI 迎来新突破! -
开源 22 万条 DeepSeek R1 的高质量数据!你也能复现 DeepSeek 了 -
OpenAI:强化学习确实可显著提高 LLM 性能,DeepSeek R1、Kimi k1.5 发现 o1 的秘密