众力资讯网

[LG]《Tandem Training for Language Models

[LG]《Tandem Training for Language Models》R West, A Anderson, E Kamar, E Horvitz [Microsoft & EPFL & University of Toronto] (2025)

提出了一种新颖的强化学习训练范式——串联训练(tandem training),旨在提升大语言模型的可理解性与协作能力。

核心问题:

随着AI模型能力快速提升,其推理过程和行为往往难以被能力较弱的模型或人类理解,带来可解释性和监督的挑战。传统强化学习仅追求正确性,忽视了解释性,导致模型输出晦涩难懂。

创新点:

1. 定义“可理解性”为“交接鲁棒性”:如果能力较强的“高级”模型在生成任务解答过程中,随机交接控制权给较弱的“低级”模型时,低级模型能继续完成任务,说明高级模型的解答对低级模型是可理解的。

2. 串联训练机制:训练时,高级模型和低级模型交替生成文本(token层面随机交接),高级模型被强化学习奖励仅在两者合作成功时给予,促使高级模型生成低级模型能够顺利衔接的、易懂的推理路径。

3. 无需事先定义“可理解性”标准,训练过程通过随机交接自动实现模型间兼容性的提升。

实验验证:

- 在数学推理任务GSM8K上,串联训练使高级模型快速舍弃专业符号和术语(如算式中的“≪ ≫”符号),语言表达向低级模型习惯的语言靠拢。

- 训练后高级模型准确率依然显著高于低级模型,证明可理解性提升未以牺牲性能为代价。

- 语言不同时,高级模型能顺利适应低级模型的语言,出现“英语中转”的现象,体现语言适应能力。

- 该方法简单且通用,可结合任意强化学习算法,且在测试时高级模型单独生成输出,无需低级模型参与。

意义与展望:

串联训练为构建“强大且可审计”的AI系统提供了新路径,有助于实现人机协作、多智能体系统中可控可理解的AI行为。未来可扩展至多种领域、训练更复杂的交互策略,推动AI安全、透明发展。

论文链接:arxiv.org/abs/2510.13551

AI训练 强化学习 语言模型 可解释AI 多智能体协作 机器学习