众力资讯网

阿里DAMO院携手南洋理工大学,让AI数学推理告别"梯度消失"困扰

这项由阿里巴巴DAMO院与南洋理工大学、新加坡科技设计大学联合开展的研究发表于2025年9月,研究人员包括来自DAMO院

这项由阿里巴巴DAMO院与南洋理工大学、新加坡科技设计大学联合开展的研究发表于2025年9月,研究人员包括来自DAMO院的冷思聪、王静、张昊等学者,以及南洋理工大学的陆维、孙爱新、卢时坚等专家。这项名为"MMR1:通过方差感知采样和开放资源增强多模态推理"的研究,为解决AI多模态推理训练中的关键技术难题提供了新的解决方案。有兴趣深入了解的读者可以通过论文编号arXiv:2509.21268v1查询完整论文。

在AI发展的浪潮中,让机器能够像人类一样进行复杂的数学推理一直是个巨大挑战。就像教小孩学数学一样,AI需要通过大量练习来掌握解题技巧,但在这个过程中经常遇到一个叫"梯度消失"的技术难题。想象你在教孩子做数学题时,如果每次给的练习题都太简单或太难,孩子就很难从中学到东西。AI也面临类似问题——当训练数据的奖励差异太小时,AI就像遇到了学习瓶颈,进步缓慢甚至停滞不前。

这个问题在使用强化学习训练AI时尤为突出。强化学习就像给AI设置一个奖惩机制,做对题目就给奖励,做错就不给或给负奖励。但现有的训练方法GRPO(群体相对策略优化)有个致命弱点:当AI对同一类题目的表现过于一致时,奖励之间的差异就会变得很小,导致学习信号微弱,就像老师给学生的反馈太模糊,学生无法从中获得有效指导。

研究团队针对这个核心问题,开发了一套名为"方差感知采样"(VAS)的创新训练策略。这个方法的核心思想很像一位经验丰富的老师挑选练习题的智慧。优秀的老师知道,最有效的练习题应该是那些学生有时能做对、有时会做错的题目,因为这类题目能提供最丰富的学习信息。

具体来说,研究团队设计了一个"方差促进评分"(VPS)系统,这个系统就像一个智能的题目筛选器。它会评估每个训练题目的"教学价值"——那些能产生不同结果的题目会被认为更有价值。这个评分系统包含两个关键组成部分:结果方差评分(OVS)和轨迹多样性评分(TDS)。

结果方差评分关注的是AI对某个题目的答题结果是否有足够的变化。如果AI对一道题总是答对或总是答错,这道题的教学价值就不高。但如果AI有时能答对、有时会答错,说明这道题正好处在AI的学习边界上,最适合用来训练。这就像游戏中的难度设置,太简单的关卡玩家会觉得无聊,太难的关卡会让玩家放弃,只有难度适中的关卡才能让玩家在挑战中不断进步。

轨迹多样性评分则关注AI解题过程的多样性。即使对同一道题,AI可能会采用不同的解题思路和步骤。就像同一道数学题可以用多种方法求解一样,AI如果能在解题过程中展现出多样性,说明它正在探索不同的推理路径,这对学习来说是非常有价值的。

有了这套评分系统,研究团队就能智能地选择训练数据了。他们的训练策略是将每个训练批次分成两部分:一部分根据VPS评分来选择那些最有教学价值的题目,另一部分则随机选择题目以保证训练的全面性。这种混合策略既确保了训练的针对性,又避免了过度专注于某类题目而忽略其他内容。

为了验证这套方法的有效性,研究团队不仅开发了算法,还精心构建了大规模的训练数据集。他们收集了约160万个长链式思考数据用于初始训练,这些数据包含了详细的解题步骤和推理过程。同时,他们还构建了约1.5万个用于强化学习的问答对,涵盖了数学、科学、图表分析等多个领域。

数据的质量控制也体现了研究团队的用心。他们使用先进的AI模型来生成和验证答案,确保训练数据的准确性。对于数学问题,他们特别关注难度分布,将问题分为简单、中等和困难三个级别,优先保留中等和困难的问题用于训练,因为这些问题更能锻炼AI的推理能力。

在理论分析方面,研究团队提供了严格的数学证明来支撑他们的方法。他们证明了奖励方差与策略梯度幅度之间存在正相关关系,这意味着通过增加奖励方差确实能够增强学习信号。这个理论基础为他们的方法提供了坚实的科学依据。

实验结果令人印象深刻。研究团队在多个标准测试集上评估了他们的方法,包括MathVerse、MathVista、MathVision、LogicVista和ChartQA等知名基准。结果显示,采用他们方法训练的模型在几乎所有测试中都取得了最佳性能。特别值得注意的是,即使是较小的3B参数模型也能与一些7B参数的竞争对手相媲美,这说明他们的方法不仅有效,而且高效。

研究团队还进行了详细的消融实验来分析各个组件的贡献。结果表明,方差感知采样策略确实能够显著改善训练效果,而且其中的两个评分组件——结果方差评分和轨迹多样性评分——各自都有重要作用,它们的结合产生了最佳效果。

在训练效率方面,采用方差感知采样的模型展现出更强的梯度信号和更稳定的训练过程。研究团队监测了训练过程中的关键指标,发现使用他们方法的模型梯度幅度更大、裁剪频率更高,这些都表明训练过程更加高效和稳定。

为了展示模型的实际推理能力,研究团队提供了详细的案例分析。以一道几何题为例,他们的模型能够系统地分析问题、制定解题计划、逐步执行计算,并在过程中进行自我验证和纠错。这种结构化的推理过程体现了模型在复杂问题解决方面的强大能力。

研究团队还分析了训练过程中方差促进评分的动态变化。他们发现,随着训练的进行,高分题目的分布会逐渐稳定,这表明模型正在识别并专注于那些最有学习价值的题目。同时,评分系统也会适应性地调整,确保始终能够选择到合适的训练数据。

除了算法创新,这项研究的另一个重要贡献是向学术界开放了大量高质量的训练资源。研究团队不仅发布了他们精心构建的数据集,还开源了完整的训练代码和预训练模型。这种开放的态度为整个研究社区提供了宝贵的资源,有助于推动多模态推理技术的进一步发展。

在超参数敏感性分析中,研究团队发现他们的方法对于关键参数的选择相当稳健。混合比例、更新频率、采样数量等关键参数在合理范围内都能保持良好的性能,这说明该方法具有良好的实用性和可操作性。

值得一提的是,这项研究不仅解决了技术问题,还为未来的研究指明了方向。通过深入分析梯度消失问题的根源并提出有效解决方案,研究团队为多模态推理领域的发展做出了重要贡献。他们的工作表明,通过巧妙的数据选择策略,可以显著提升强化学习的效果,这个思路也可能被应用到其他AI训练任务中。

尽管取得了显著成果,研究团队也坦诚地指出了当前方法的局限性。虽然方差感知采样能够缓解梯度消失问题,但并不能完全解决多模态强化学习中的所有训练不稳定性问题。此外,计算方差促进评分需要额外的计算开销,虽然可以通过调整更新间隔等方式来缓解。

展望未来,研究团队认为这项工作开启了多个有前景的研究方向。他们建议将方差感知采样扩展到更广泛的领域,探索其与不同奖励设计的结合,以及与更先进的强化学习算法的整合。这些后续研究有望进一步提升训练效率和模型性能。

说到底,这项研究就像给AI的数学学习过程装上了一个智能导师系统。这个导师不仅知道如何挑选最有价值的练习题,还能动态调整教学策略,确保AI能够高效地掌握复杂的推理技能。通过解决梯度消失这个核心技术难题,研究团队为AI在数学推理、科学分析等复杂任务上的应用铺平了道路。

更重要的是,他们开放共享的态度为整个AI研究社区提供了宝贵资源。其他研究者可以在此基础上继续创新,推动多模态AI技术向更高水平发展。这种协作精神正是科技进步的重要推动力,也让我们对AI未来在教育、科研等领域的应用充满期待。这项研究不仅是技术上的突破,更是为AI赋予更强推理能力迈出的重要一步。

Q&A

Q1:什么是方差感知采样,它是如何解决AI训练问题的?

A:方差感知采样是一种智能的训练数据选择策略,就像经验丰富的老师挑选练习题一样。它会优先选择那些AI有时能答对、有时会答错的题目进行训练,因为这类题目能提供最丰富的学习信息,从而解决强化学习中的梯度消失问题。

Q2:阿里巴巴DAMO院开发的MMR1模型在数学推理方面表现如何?

A:MMR1模型在多个标准测试中都取得了最佳性能,7B参数版本平均得分达到58.4,超越了所有同类模型。更令人惊喜的是,3B参数的小版本也能与许多7B参数的竞争对手相媲美,显示出极高的训练效率。

Q3:这项研究对普通人有什么实际意义?

A:这项研究让AI在数学解题、图表分析等复杂推理任务上更加智能和可靠,未来可能应用于智能教育、科研辅助等领域。研究团队还开源了代码和数据,为整个AI社区提供了宝贵资源,有助于推动相关技术的快速发展。