百万美金炼出「调参秘籍」!阶跃星辰开源LLM最优超参工具

-
论文标题:Predictable Scale: Part Ⅰ — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining -
论文链接:https://arxiv.org/abs/2503.04715 -
工具链接:https://step-law.github.io/ -
开源地址:https://github.com/step-law/steplaw -
训练过程:https://wandb.ai/billzid/predictable-scale
(来源:机器之心)











-
最优学习率:随模型规模增大而减小,随数据规模增大而增大。 -
最优批量大小:随数据规模增大而增大,与模型规模弱相关。
-
在给定模型、训练 Token 数的情况下,(Loss,bs,lr) 这三维空间是否是真正的凸性。 -
是否有更好的 optimal BS LR 的拟合方法,并且可以兼容 BS、LR 的内在关系。 -
尽管 Step Law 在不同 Model Shape、不同稀疏的 MoE 模型是鲁棒的,但是次优的区域是在不同配置下是变化的,有无更好的解释方法。 -
上文中这些基于海量 Grid Search 的数据驱动的结论的理论解释。 -
不同的超参、不同 Model Size、Model Shape、Model Sparsity 下的 Training Dynamic 研究。
