[LG]《Neural Garbage Collection: Learning

[LG]《Neural Garbage Collection: Learning to Forget while Learning to Reason》M Y. Li, J I Hamid, E B. Fox, N D. Goodman [Stanford University] (2026)

在长链推理中，KV缓存随推理步数线性增长，成为扩展瓶颈。现有方法依赖固定启发式（如注意力权重、最近性）或代理目标（重构损失、蒸馏）来决定驱逐哪些缓存条目，但这些规则与任务目标脱节——它们由设计者预设"重要性"标准，而非让模型从任务奖励中自主学习何为重要。

本文的核心洞见是：把缓存驱逐重新看作模型的离散动作，与生成token一样通过强化学习端到端优化。模型在推理过程中周期性暂停，用自身注意力机制对缓存条目打分并采样保留子集，然后基于剪枝后的缓存继续推理。由于token生成和缓存驱逐都是从语言模型采样的离散动作，单一任务奖励信号（如答案正确性）同时训练推理能力和记忆管理——模型驱逐什么塑造它记住什么，记住什么塑造推理过程，推理正确性反向优化两类决策。

这项工作真正留下的遗产是将效率本身视为可学习能力，而非手工设计的系统优化。它为后来者打开的新门是：通过端到端优化压力同时驱动模型能力与资源效率的提升，潜在逆转"更强即更贵"的传统权衡。但尚未跨过的门槛是：方法仍需驱逐率课程来稳定训练，且在极端压缩率下性能仍会退化；此外，当前实现局限于transformer架构，对其他架构的泛化性未知。

arxiv.org/abs/2604.18002 机器学习人工智能论文 AI创造营

众力资讯网

[LG]《Neural Garbage Collection: Learning

热门分类