小米大模型,AI领域又出新招。 小米AI团队发论文了,北大也参与了,用了MoE和强化学习,好像很厉害的样子,是罗福莉搞的,听说之前在深势科技。 罗福莉本科是北师大的,硕士在北大,师从穗志方,后来去了阿里达摩院,参与AliceMind,还去了幻方量化DeepSeek,搞DeepSeek V2,2024年9月,DeepSeek发论文的时候,她署名“北京独立研究者”,大家都在猜,这是什么情况,现在发的小米论文,她是通讯作者之一,可能已经去小米了吧,之前的“独立研究者”,也许只是过渡。 他们搞了个R3方法,说是能解决MoE架构大模型强化学习的问题,MoE架构训练不稳定,还容易崩溃,推理和训练不一样,导致“概率漂移”,R3就是锁定路由,推理的时候记录路由,训练的时候重放,让训练和推理一样,还用了路由掩码,缓存路由信息,避免重复计算,这样就能更稳定更高效。 他们用Qwen3-30B-A3B做实验,R3表现更好,和GSPO结合更厉害,训练曲线更平稳,不容易崩,优化过程也更流畅,能更快找到正确的方向,R3方法能让MoE模型更稳定,更高效。 第一作者是温涵,小米LLM-Core团队的实习生,参与了MiMo模型,通讯作者是罗福莉和穗志方,小米和北大合作,说不定以后能搞出更多好东西,罗福莉的单位标注有点奇怪,但她确实很厉害,小米在大模型领域,肯定要搞大事。
小米大模型,AI领域又出新招。 小米AI团队发论文了,北大也参与了,用了MoE和
灵巧光束
2025-10-21 18:03:28
0
阅读:0