五万字对话实录:Claude创始人详解AI拐点!从扩展定律到AGI降临,一场改变

姬锋 2025-02-05 18:29:20

五万字对话实录:Claude创始人详解AI拐点!从扩展定律到AGI降临,一场改变人类未来的技术革命正在上演!(14)

摘自老瓦 老瓦AI小屋

后训练的构成

莱克斯·弗里德曼:

让我们谈谈后训练(Post-training)。

目前,现代后训练的配方似乎包含了很多不同的技术:

有监督微调(Supervised Fine-tuning, SFT)

基于人类反馈的强化学习(RLHF)

宪法 AI(Constitutional AI),带有 RLAIF(Reinforcement Learning from AI Feedback)

合成数据(Synthetic Data)

这些技术结合在一起,似乎塑造了Claude 变得如此出色的关键。那么,在模型的最终表现中,有多少魔力来自预训练?又有多少来自后训练?

达里奥·阿莫迪:

这是个好问题,但即便是我们自己也无法完全衡量。

为什么?

因为当你看到一个优秀的特性时,有时候很难区分它是预训练的结果,还是后训练的成果。我们开发了一些方法来尝试拆解这些影响,但它们并不完美。

其次,我们的优势并不一定来自某个秘密的"魔法方法"。我们可能在以下几个方面做得更好:

更优化的基础设施 ——让我们可以运行更长时间的训练。

更高质量的数据 ——模型训练时的数据筛选和整理方式。

更好的数据过滤技术 ——减少噪音,提高训练信号的质量。

更好的方法整合 ——我们不仅使用单一技术,而是不断实验如何最有效地组合这些方法。

这些听起来并不神奇或革命性,但它们最终决定了模型的表现。

所以,与其把训练这些模型看作某种神秘的黑科技,我更倾向于把它比作设计飞机或汽车:

这不是简单的"我有了一个突破性的蓝图",而是如何系统化地优化整个工程流程。

莱克斯·弗里德曼:

那让我们深入探讨一下RLHF(基于人类反馈的强化学习)。

从哲学角度来看,你觉得RLHF 为什么如此有效?

达里奥·阿莫迪:

如果回到扩展假说(Scaling Hypothesis),有一种方式可以理解 RLHF 的作用:

如果你的训练目标是 X,并且你投入足够的计算资源,那么你最终就能得到 X。

RLHF擅长让模型朝着人类期望的方向发展,具体来说,它可以:

让模型 更符合人类的偏好

让模型的输出 更加符合短期人类反馈的标准

但这里也有一些隐含的问题:

人类在短时间内的判断,未必与长远利益一致。

人类对模型的期待并不总是精确的,甚至可能是矛盾的。

尽管如此,RLHF 仍然是最有效的方法之一,因为它能让模型更接近人类想要的行为,即便它并不总是完美的。

莱克斯·弗里德曼:

那么,你认为RLHF 让模型真正变得更聪明了吗?还是它只是让模型看起来更聪明?

达里奥·阿莫迪:

我认为它既没有让模型更聪明,也不仅仅是让模型看起来更聪明。

更准确的说:

RLHF 是在人类和模型之间架起了一座桥梁。

换句话说,一个模型可以非常聪明,但如果它无法有效地与人类沟通,那么它的聪明是无用的。这就像现实中有些人非常聪明,但由于沟通能力欠佳,别人很难理解他们的思维方式。

所以,RLHF 的作用类似于:

让模型的 思维逻辑更贴近人类

让模型的表达方式 更符合人类的直觉

尽管目前我们使用的 RLHF主要是增强模型的用户体验,但在未来,我相信强化学习可以直接提升模型的推理能力,让它真正变得更聪明。

莱克斯·弗里德曼:

但如果从"有用性"(Usability)的角度来看,RLHF 还是起到了巨大的作用吧?

达里奥·阿莫迪:

是的,毫无疑问。

这还涉及到一个很有趣的概念,叫做"解除束缚"(Unhobbling)。这个词最早出现在 Leopold 的一篇文章中,指的是:

模型原本受到某些限制,经过训练之后,这些限制被解除,它开始表现得更自然、更流畅、更智能。

所以,你可以把 RLHF 视作一个"解放" 模型潜力的过程:

消除不必要的限制 ——比如让模型减少无谓的拒答。

优化模型的表达方式 ——让它的回应更清晰、更自然。

提高模型对用户意图的理解 ——减少答非所问的情况。

但仍然有很多领域,模型仍然受限,还有很多"束缚"需要继续解除。

莱克斯·弗里德曼:

从成本的角度来看,预训练是最昂贵的部分吗? 还是后训练已经接近这个水平了?

达里奥·阿莫迪:

目前来看,预训练仍然是最昂贵的部分。

但在未来,后训练的成本可能会逐步增加,甚至最终超越预训练。

莱克斯·弗里德曼:

你认为未来后训练过程中的主要成本,是来自人类的监督,还是AI 本身的训练计算成本?

达里奥·阿莫迪:

这正是关键所在。

单纯依赖扩大人类监督的规模,并不是一个可持续的解决方案。

如果我们想在后训练中继续提高质量,我们需要依赖"可扩展的监督方法",例如:

辩论(Debate) ——让 AI 自己进行推理,并通过对抗性训练提高回答质量。

迭代放大(Iterated Amplification) ——通过模型自身的能力提升来优化训练效果,而不是完全依赖人类。

最终,AI 自身的训练方式将成为更高效的解决方案,而不是无限增加人类的参与度。

0 阅读:0
姬锋

姬锋

感谢大家的关注