五万字对话实录:Claude创始人详解AI拐点!从扩展定律到AGI降临,一场改变

姬锋 2025-02-05 18:29:20

五万字对话实录:Claude创始人详解AI拐点!从扩展定律到AGI降临,一场改变人类未来的技术革命正在上演!(15)

摘自老瓦 老瓦AI小屋

宪法 AI

莱克斯·弗里德曼:

宪法 AI 是一个非常有趣的概念。你能描述一下它是什么吗?从 2022 年 12 月的那篇论文开始,以及之后的发展,它究竟是什么?

达里奥·阿莫迪:

好的。这要追溯到两年前。

首先,让我们先看看RLHF(基于人类反馈的强化学习)是怎么工作的:

你让 AI 生成两个不同的回答。

你让人类评估这两个回答,选择更好的一个,或者用 1 到 7 的评分进行打分。

这个评分系统帮助训练模型,使它朝着更符合人类期望的方向调整。

但RLHF 存在一些问题:

你需要 大量的人类参与 ,这很难扩展。

评估方式有 隐含的主观性 ——我们并不总是清楚到底希望 AI 具体做什么。

宪法 AI 提出了一种改进方法:

让 AI 自己评估哪个回答更好 ——也就是 AI 评价 AI 。

给 AI 设定一套 明确的"宪法"原则 ,让它基于这些原则来评估自己的回答质量。

它的工作方式如下:

你让 AI 生成一个回答,然后让另一个 AI 评价这个回答是否符合"宪法"原则。

这个评价反馈回去,调整 AI 的行为,使其不断优化自身。

这形成了一种 自我对弈(self-play) 的模式,让 AI 根据既定规则自我调整 。

莱克斯·弗里德曼:

这些宪法规则是什么?它们是人类能够理解的吗?

达里奥·阿莫迪:

是的,这些规则是人类可以阅读并理解的。

这点很重要,因为它赋予了透明性——我们可以直接查看 AI 遵循的规则,而不是完全依赖黑箱式的强化学习。

目前,我们同时使用宪法 AI、RLHF 和其他强化学习方法。宪法 AI 的优势在于:

减少对 RLHF 的依赖 ,降低对人类评估的需求。

提高 RLHF 数据的质量 ,让 AI 在有限的人类反馈下做出更好的判断。

能够扩展到更复杂的推理任务 ,不仅仅局限于简单的偏好选择。

换句话说,宪法 AI 并不是替代 RLHF,而是强化它的一种工具。

莱克斯·弗里德曼:

那么,谁应该决定宪法中的这些原则?它们应该如何被制定?

达里奥·阿莫迪:

这是一个很好的问题。我会给你两个答案:一个是实践性的,一个是更抽象的。

1. 实践角度:

不同的客户可能会对 AI有不同的需求,因此:

客服 AI 可能会遵循 礼貌、简洁、准确 的原则。

法律 AI 可能会遵循 合法合规、引用权威来源 的原则。

儿童教育 AI 可能会遵循 道德友善、避免暴力内容 的原则。

在某种程度上,AI 的"宪法"可以根据不同的场景进行微调,让不同的 AI 遵循不同的规则。

2. 更深层的哲学问题:

有没有一套通用的"宪法"是所有 AI 都应该遵守的?

我认为在某些方面是有的。比如:

避免 CBRN(化学、生物、放射性、核风险)等极端风险 。

遵循民主、法治等基本原则 。

不应被用于侵犯人权或进行非法活动 。

超出这些基本原则的部分,就变得比较复杂和主观了。在这些领域,我们的目标通常是让 AI保持中立,不积极倡导某个特定的立场,而是帮助用户进行思考,提供不同的观点和信息。

莱克斯·弗里德曼:

OpenAI 最近发布了模型规范(Model Spec),他们在文档中详细说明了 AI 的行为规范,并提供了 A/B 示例,展示 AI 在不同情况下应该如何回应。

你觉得这有价值吗?Anthropic 也会发布类似的"模型规范"吗?

达里奥·阿莫迪:

是的,我认为这是一个非常有价值的方向,而且它与宪法 AI有很多相似之处。

从某种意义上说,这是"向上竞争(Race to the Top)"的一个例子。

我们(Anthropic)提出了 宪法 AI ,它被证明是一个 更负责任、更透明 的方法。

其他公司看到 这个方法的价值 ,于是开始采用类似的方法, 让 AI 的行为更加透明和可控 。

这是一个积极的竞争动态:

你推出一个更好的 AI 训练方法, 让 AI 更安全、更透明 。

竞争对手看到了 这个方法的价值 ,他们开始采用类似的方法。

整个行业的标准提高了 ,最终,用户受益。

当然,我们仍然希望继续保持领先,不断寻找新的改进方式,但从行业整体角度来看,向上竞争比向下竞争好得多。

0 阅读:0
姬锋

姬锋

感谢大家的关注