使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

-
遵循严格的规则(每行、每列和每框必须包含数字 1-9,且不能重复) -
保持一致的网格格式 -
应用逐步的逻辑推理 -
理解网格元素之间的空间关系 -
得出一个正确的解答
-
Level 1(非常简单):50-81 条线索 -
Level 2(简单):40-49 条线索 -
Level 3(中等):30-39 条线索 -
Level 4(困难):17-29 条线索

-
在 <think> 标签中逐步思考解决方案 -
在 <answer> 标签中提供具有适当网格格式的最终答案
-
Qwen 2.5 7B Instruct:使用了秩为 16 的 LoRA 进行微调 -
Qwen 2.5 3B Instruct:使用了秩为 32 的 LoRA 进行微调
-
批量大小:1 -
梯度累积步骤:8 -
学习率:3e-4(Karpathy 常数) -
最大部署:500 -
每 10 步评估一次 -
最大序列长度:3000 token

-
将推理过程与最终答案分开 -
使提取与评估模型的解答变得容易



-
严格强制模型保留原始线索(如果任何线索发生变化,则给予零奖励); -
对于模型正确填充的每个空单元格,都按比例给予奖励。

-
保持了稳定的完成长度,约为 1000 token -
能生成格式一致的解答 -
奖励指标稳步提升 -
在整个训练过程中保持了策略稳定性
-
训练期间出现灾难性的不稳定性 -
出现巨大的策略分歧(KL 飙升至 80!) -
未能保持一致的性能 -
最终崩溃,无法恢复





-
增加难度:引入更具挑战性的谜题来测试模型的推理能力 -
扩大计算规模:使用更多计算资源,进行更长时间和更大批次的训练 -
探索模型架构:测试 7B 模型的 LoRA rank 32,看更高的 rank 是否能提高性能 -
蒸馏法:从 DeepSeek R1 等大型模型中提炼出冷启动数据集,然后在此基础上应用 GRPO -
高级奖励函数:实施我已经设计好但尚未在训练中部署的更细致入微的奖励机制 -
评估框架:开发更复杂的评估指标,以评估推理质量,而不仅仅是解决方案的准确性

-
渐进式奖励优于二元反馈:我不会简单地将答案标记为正确或错误,而是为部分解答提供部分奖励。这能创造一个更平滑的学习梯度,有助于模型渐进式改进。 -
难度感知型扩展:这些增强过的函数会将问题难度作为一个乘数,这能为解决更难的问题提供更高的奖励。这能鼓励模型解决更难的问题,而不仅仅是优化简单的问题。 -
严格的线索保存:所有奖励函数都执行了一条不可协商的规则,即必须保留原始问题线索。这可以防止模型通过更改问题本身来「作弊」。 -
额外奖励阈值:这些经过增强的函数包括当模型超过某些性能阈值(75%、85%、95% 正确)时的额外奖励。当模型走上正轨时,这些作为激励里程碑,可以加速学习。 -
最低奖励底线(我最关注的一点):即使是部分正确的解答也会获得较小的最低奖励(0.05),确保模型即使进展很小,也能获得一些反馈。
-
遵从结构化流程 -
逐步应用逻辑推理 -
保持格式一致性 -
根据已知规则验证自己的成果 -
理解空间关系
-
编程:教模型编写遵循严格语法和逻辑约束的代码 -
数学问题求解:实现复杂数学问题的分步解答 -
科学推理:帮助模型理解和应用科学方法和原理 -
形式验证:训练模型根据既定规则检查自己的成果