[LG]《Learning When to Stop: Adaptive Lat

[LG]《Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning》A Ning, Y Kuo, G Gomes [University of Virginia & CMU] (2025) 在大型语言模型的推理效率提升中，链式思维（Chain-of-Thought, CoT）虽有效，但存在“过度思考”导致计算资源浪费的问题，同时受限于以人类语言为媒介的推理方式。最新提出的“潜在推理”（Latent Reasoning）技术，通过直接将Transformer模型的隐状态传递作为推理过程，突破了语言符号的限制，实现了推理长度的大幅压缩。本文提出了一种自适应潜在推理方法，结合监督微调（SFT）与强化学习（RL），让模型能自主决定何时终止推理，动态调整推理长度。具体做法是为潜在推理模型增加一个二分类头，在每一步判断是否继续推理。强化学习阶段采用Group Relative Policy Optimization算法，通过正确性奖励、格式惩罚与相对长度奖惩机制，促使模型在保证准确率的同时最大程度减少推理长度。实验证明，基于Llama 3.2 1B和GSM8K-Aug数据集，经过强化学习优化的潜在推理模型相比传统CoT推理，推理长度平均减少52.94%，且准确率不受影响。这表明模型能够根据问题难度“少想多快”，或“多想以求精”，有效节约计算和内存资源。实验中还发现推理长度与错误率呈正相关，强化学习使模型倾向于对简单问题缩短推理过程，对难题延长思考时间。此外，文章探讨了潜在推理的知识蒸馏问题，尝试了多种损失函数设计（如Meaned Reasoning Loss和Intermediate Block Loss），但未能超越现有方法CODI，显示潜在推理知识蒸馏仍具挑战性，需未来深入研究。总的来说，这项工作展示了通过自适应潜在推理和强化学习，有望突破当前语言模型推理效率瓶颈，推动更智能、高效的模型设计。未来计划扩展至更多模型和任务，优化训练参数，尝试不同架构改进，并持续探索知识蒸馏技术。全文及代码详见：github.com/apning/adaptive-latent-reasoning 论文链接：arxiv.org/abs/2511.21581

众力资讯网

[LG]《Learning When to Stop: Adaptive Lat

热门分类