众力资讯网

腾讯混元推出了UniRL ,一个面向统一多模态生成模型的分布式强化学习框架。地址

腾讯混元推出了UniRL ,一个面向统一多模态生成模型的分布式强化学习框架。

地址:github.com/Tencent-Hunyuan/UniRLUniRL 对多模态模型家族应用一次强化学习后训练循环——生成样本、评分、计算优势、更新策略,并将权重同步回 rollout 工作器。