[LG]《Rethinking Language Model Scaling u

[LG]《Rethinking Language Model Scaling under Transferable Hypersphere Optimization》L Ren, Y Liu, Y Shen, W Chen [Microsoft] (2026)

在大语言模型预训练中，超参数（尤其是学习率）如何随模型宽度、深度、训练数据量、MoE稀疏度协同迁移，至今没有统一的理论框架。已有方法受困于两重缺陷：一是针对一阶优化器设计，无法直接适配超球面优化器；二是即便超参数调好，随着训练算力放大，logit爆炸、激活值离群点、损失尖峰仍如幽灵般反复出现，根本原因在于权重范数无法被结构性约束。

本文的核心洞见是：把"权重矩阵被约束在Frobenius球面上"这一几何事实重新看作超参数迁移的理论支点。由此推出三个互扣的结论：权重衰减在切平面投影下一阶消失（等价于把双变量搜索压缩为单变量）；Depth-μP的深度缩放律在球面优化下依然必要（推翻了原作者"MuonH天然深度可迁移"的断言）；最优学习率随训练token数呈幂律衰减，指数恰好是0.32——与AdamW的已知结果重合，暗示这是跨优化器的普遍常数。对MoE，用SqrtGate替换标准Softmax门控，将路由Z值峰值压低5倍，并实现跨粒度的输出RMS不变性。

这项工作真正留下的遗产是：首次为超球面优化建立了覆盖全部计算量维度的学习率迁移律，使"一次小规模调参、全轨迹复用"成为有理论保证的操作，并在6×10²¹ FLOPs处实现1.58倍计算效率杠杆。它为后来者打开的新门是：稳定性本身可以被"迁移"——更大模型的训练动态不比小模型更差，这为前沿算力下的可靠扩展提供了结构性保障。但尚未跨过的门槛是：0.32这一"魔法指数"缺乏理论推导，迁移律对混合架构、线性循环模型的适用性尚未验证，且Chinchilla最优假设本身依赖数据集需重新拟合。

arxiv.org/abs/2603.28743

机器学习人工智能论文 AI创造营

万益资讯网

[LG]《Rethinking Language Model Scaling u

热门分类