玩酷网

[LG]《Fantastic Pretraining Optimizers an

[LG]《Fantastic Pretraining Optimizers and Where to Find Them》K Wen, D Hall, T Ma, P Liang [Stanford University] (2025)

大语言模型预训练优化器再评估:真正的性能提升远低于传言

• 研究覆盖11种优化器,横跨0.1B至1.2B参数规模,考虑多种数据-模型比例(1×至8× Chinchilla最优)。

• 发现AdamW基线常因调参不足被低估,简单调整学习率即可实现近2×加速,凸显超参调优重要性。

• 不同优化器对超参敏感度差异显著,统一超参设定导致不公平比较。

• 矩阵预调节(matrix-based)优化器(如Muon、Soap、Kron)对小模型(