前OpenAI大神Andrej Karpathy 对DeepSeek R1的推文(翻译):
"关于 V3,我没有太多要补充的内容,之前的帖子已经说了很多,而且我认为这些内容也适用于 R1(R1 是更新的版本,在思维层面是等同的)。
我想说的是,深度学习对算力的需求是出了名的贪婪,这与人工智能领域中以往开发的任何算法都不一样。你可能不会总是充分利用它,但我永远不会否认,从长远来看,算力是实现更高智能的上限。这不仅仅针对单个最终的训练运行,也针对默默支撑所有算法创新的整个创新/实验引擎。
数据历来被视为与算力不同的类别,但即使是数据也在很大程度上依赖于算力 - 你可以使用算力来创建数据。大量的数据。你可能听说过这被称为合成数据生成,但不太明显的是,“合成数据生成”和“强化学习”之间存在着非常深刻的联系(甚至可以说是等价的)。在强化学习的试错学习过程中,“试”就是模型生成(合成)数据,然后它根据“错”(/奖励)进行学习。相反,当你生成合成数据,然后以任何方式对其进行排序或过滤时,你的过滤器完全等同于一个 0-1 的优势函数 - 恭喜你,你正在做蹩脚的强化学习。
最后一个想法。不知道这是否显而易见。在儿童和深度学习中,都存在两种主要类型的学习。
1)模仿学习(观察和重复,即预训练、监督微调),
2)试错学习(强化学习)。
我最喜欢的简单例子是 AlphaGo - 1)是通过模仿专家级棋手来学习,2)是通过强化学习来赢得比赛。深度学习几乎每一个令人震惊的结果,以及所有魔法的来源,都总是 2。
2 比 1 强大得多得多。2 是让你感到惊讶的东西。2 是当球拍学会在 Breakout 游戏中击打砖块后面的球的时候。2 是当 AlphaGo 甚至击败李世石的时候。2 是当 DeepSeek(或 o1 等)发现重新评估你的假设、回溯、尝试其他方法等很有效时的“顿悟时刻”。这就是你在这个模型的思维链中看到的解决策略。这是它来回思考的方式。这些想法是涌现的(!!!),这实际上非常令人难以置信、令人印象深刻和新颖(公开可用且有文档记录等)。该模型永远无法通过 1(模仿)来学习这一点,因为模型的认知和人类标注者的认知是不同的。人类永远不会知道如何正确地注释这些类型的解决策略,以及它们应该是什么样子。它们必须在强化学习过程中被发现为对最终结果具有经验和统计学意义的有用策略。
(这次真的是最后最后一个想法/参考资料,RL 很强大,但 RLHF 不是 RL。RLHF 不是 RL。)
-----------------------
ps:开头提到的上一条推文如图2,是第一个认识到且公开说deepseek v3训练成本非常低的大佬。