众力资讯网

Qwen团队新发了一篇论文:Stabilizing Reinforcement

Qwen团队新发了一篇论文:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices以下为团队成员的介绍:“🧐理解大模型强化学习的“数学原理”大家好,和大家分享下我们关于理解LLM RL稳定性的新paper( huggingface.co/papers/2512.01374)。主要内容如下:1. 我们从「一阶近似」这一简单直观的角度,formulate并解释了用token-level obj优化seq-level reward的合理性,并且指出近似成立需要最小化「训推diff」和「policy staleness」。2. 我们的formulation给出了principled解释,诸如IS correction、clipping、Routing Replay等稳定化技术,在原理上都在维持这个近似成立。3. 我们使用30B MoE模型进行大量实验(x00,000+ GPU hours,FP8 infer + BF16 train)证实了上述预测,同时探究了稳定RL训练的配方。特别地,我们证实了只要能够长期稳定训练,不同cold-start都会收敛到相似性能。我们坚信稳定性是scaling RL的关键所在!希望这个paper给大家带来新的insight和有用的recipe!”科技先锋官