强化学习不是终点,「反思式学习」才是下一个拐点? AndrejKarpathy

量子位来谈科技 2025-07-15 17:36:32

强化学习不是终点,「反思式学习」才是下一个拐点? Andrej Karpathy又在X上分享了自己最新的思考,这次有关强化学习。他提出了一个关键的问题: 强化学习(RL)真的是最终答案吗? 他认为从机制看,强化学习的核心不过是:如果某次行为得到了好结果,就稍微提高这些行为再次被选择的概率;坏结果则降低。 这种方式虽然有效,但也暴露出两个问题: 异乎寻常的低效:当任务变得很长,比如几分钟甚至几小时,RL却只靠一个最终的分数来调整策略,这对模型来说几乎是“黑盒式”学习。 缺乏人类式的反思学习:人类在完成复杂任务后,往往会自我复盘:哪步好?哪步失误?下次怎么做?这类显式总结往往被内化成“直觉”或“第二天性”(second nature),但RL中却没有这类过程。 卡帕西指出,大语言模型在某种程度上可以承载这种新形式的「反思式学习」。 这就像写日记、复盘比赛、考后总结。我们通过反思提取了更多“明确”的经验,而不是仅靠一次“奖励”去模糊调整。 比如一次任务中多次尝试,把它们和对应的反馈结果放进上下文窗口,用提示语引导模型总结“经验教训”,再将这些教训以文字形式加入系统提示,或逐渐蒸馏成模型权重。 他举了Claude的一个例子:因为模型无法很好地区分字母(如strawberry里的“r”),工程师手动在系统提示中添加了方法:“先将字母用逗号分开,再逐一计数”。 这段指令就是“经验”,明确指导模型完成任务。但核心在于: - 未来能否让模型自己通过多轮试错学会这种教训,而不是靠人硬编码? - 如何泛化? - 如何随时间蒸馏经验以避免上下文窗口无限膨胀? 简言之:RL将带来更多突破,因其杠杆效应显著,符合“苦涩教训”理论,且优于监督微调(SFT),但随着任务时长持续增加,它绝非终极答案。 对此,你怎么看?

0 阅读:0
量子位来谈科技

量子位来谈科技

感谢大家的关注