万字长文解读Scaling Law的一切,洞见LLM的未来

-
原文链接:https://cameronrwolfe.substack.com/p/llm-scaling-laws





-
模型参数的数量。 -
数据集的大小。 -
用于训练的计算量。





-
使用各种训练设置训练一堆较小的模型。 -
根据较小模型的性能拟合 Scaling Law。 -
使用 Scaling Law 推断更大模型的性能。
-
这些模型的细节更公开。 -
除了 scaling 预训练过程外,后期的模型还极大受益于后训练研究。

-
对纯文本进行自监督预训练非常有效。 -
使用长而连续的文本跨度进行预训练非常重要。 -
以这种方式进行预训练后,可以对单个模型进行微调,使其能以最领先的准确度解决各种不同的任务。

-
预训练数据集改成了 WebText,它比 BooksCorpus 大得多,并且是通过从互联网上抓取数据创建的。 -
这些模型没有针对下游任务进行微调。相反,是通过使用预训练模型执行零样本推理来解决任务。







-
GPT-4 是基于 Transformer 的。 -
该模型使用了下一个 token 预测进行预训练。 -
使用公开和授权的第三方数据。 -
该模型通过 RLHF 进行了微调。







-
路透社称,OpenAI 正在改变其产品战略,因为其在 scaling 当前方法方面遇到了瓶颈。 -
The Information 称,GPT 模型的改进速度开始放缓。 -
彭博社强调了几个前沿实验室在尝试构建更强大的 AI 时面临的困难。 -
TechCrunch 称,scaling 开始产生收益递减。 -
《时代》杂志发表了一篇细致入微的文章,强调了导致 AI 研究放缓的各种因素。 -
Ilya Sutskever 在 NeurIPS’24 的获奖演讲中表示,「我们所知的预训练将会终结」。


-
Scaling Law 告诉我们,增加预训练的规模将平稳地降低 LLM 的测试损失。 -
我们真正关心的是获得「更好」的 LLM。





-
基于 DeepSeek-v2 的优化版 MoE 架构。 -
用于平衡 MoE 负载的新型无辅助损失策略。 -
多 token 预测训练目标。 -
从长思维链模型(类似于 OpenAI o1)中蒸馏推理能力。

-
更大的计算集群。 -
更多(和更好的)硬件。 -
大量电力。 -
新算法(例如,用于更大规模分布式训练的算法,可能跨越多个数据中心)。
-
LLM 系统/智能体。 -
推理模型。

-
任务分解:将任务本身分解成更小的子任务,这些子任务可以单独解决,然后汇总形成最终答案。 -
链式处理:通过对 LLM 进行多次顺序调用而不是单次调用来解决任务或子任务。
-
将任务进一步分解成更小的文本块来总结 (即类似于递归 / 层次分解)。 -
将多个 LLM 调用链接在一起;例如,让一个 LLM 提取章节中所有重要的事实或信息,然后另一个 LLM 基于这些关键事实生成章节总结。





-
LLM-as-a-Judge 风格的评估模型通常会在生成最终评估结果之前提供评分理由。 -
已有研究者提出用于教导较小 / 开放 LLM 写出更好思维链的监督微调和指令调优策略。 -
LLM 经常被要求反思并批评或验证自己的输出,然后基于这些信息修改输出。

-
在 Codeforces 的竞争性编程问题中排名第 89 位。 -
在美国数学奥林匹克(AIME)资格赛中达到美国学生前 500 名水平。 -
在研究生水平的物理、生物和化学问题(GPQA)上超过人类博士生的准确率。


-
在 ARC-AGI 基准测试中得分为 87.5%,而 GPT-4o 的准确率仅为 5%。o3 是第一个在 ARC-AGI 上超过人类水平(85%)的模型。该基准测试曾被称为 AGI 的「北极星」,五年多来一直未被攻克。 -
在 SWE-Bench Verified 上的准确率为 71.7%,在 Codeforces 的 Elo 得分为 2727,这使 o3 的水平达到了全球前 200 名参赛的人类程序员。 -
EpochAI 的 FrontierMath 基准测试的准确率为 25.2%,比之前最先进的 2.0% 的准确率有所提高。陶哲轩曾表示,此基准「极其困难」,并且很可能在「至少几年内」都无法被 AI 系统解决。 -
OpenAI 给出了 o3 的精简版本 o3-mini 的预览,它的性能非常好,并且计算效率得到了显著提升。

-
训练时间(强化学习)计算。 -
推理时间计算。
-
Scaling Law 正在自然衰减。 -
对 LLM 能力的期望差异很大。 -
大规模跨学科工程研究的没有想预期那么快。