开源赛道太挤了!月之暗面开源新版Muon优化器

-
添加权重衰减:对扩展到更大模型至关重要。 -
一致的 RMS 更新:在模型更新上执行一致的均方根。


-
论文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf -
代码地址:https://github.com/MoonshotAI/Moonlight -
模型地址:https://huggingface.co/moonshotai/Moonlight-16B-A3B












