antirez昨晚连发10条推来说明中国模型不是靠蒸馏美国模型来变强的。当然an

antirez昨晚连发10条推来说明中国模型不是靠蒸馏美国模型来变强的。当然antirez说的蒸馏是蒸馏的原始定义大模型输出 logits （输出分布），小模型学习 logits 。而现在“蒸馏”这个词已经被滥用了，有很多引申的不同含义，所以相关讨论里还是有很多争议。。

------------------还有一件重要的事：中国模型强，并不是因为它们蒸馏了美国模型。通过 API 进行模型蒸馏是*不可能的*。如果有人告诉你相反的说法，那说明他们不懂机器学习：

1. 蒸馏需要访问数量极其庞大的请求，并且必须能获得*完整的 logits*，包括思维链生成过程中的 logits，而思维链通常是被摘要化的。2. 通过 API 调用进行蒸馏，就像只看到一个极其复杂曲面上的几个点，却仍然能复现这个复杂曲面。从数学上说，这就是科幻。3. DeepSeek 在 R1 论文中创建的蒸馏版本之所以提升了目标模型，是因为那些目标模型虽然已经在大量 token 上预训练过，但没有接受过“思考”训练；潜在能力本来就在那里。不过即便如此，这些蒸馏版本也并不算特别出色。4. 你真正能做的是为强化学习流程获取高质量信号。这有点用，但并不关键；首先你得有一套能跑通的强化学习流程，而这才是真正的工程难点所在。5. 即使你手上有模型，蒸馏也很难：现在已经有很多前沿中国模型可用，但许多实验室，包括欧洲实验室，也无法提供与它们对齐的模型。6. DeepSeek 已经公布了它们如何搭建预训练、SFT 和 RL 流程的细节。这些结果甚至已经被复现。为什么相比可复现且公开的结果，你更愿意相信“飞天猴子”？他们已经向你展示了自己有能力训练好大模型。7a. 当有人坚持这种机器学习上的荒谬说法时，你可以问他们：你声称模型从 Y 来源学到了 X 能力，那好，请给我展示信息路径。预训练？那需要数万亿 token。7b. 带验证器的强化学习？没有，因为它需要来自探索的奖励信号。完整 logits？那是教师模型的完整分布，而从 o1 或类似模型开始，这些信息根本拿不到。所以信息通道到底是什么？

总结：别再重复这种胡说八道了。即使你的简介里写着“AI 专家”，你也只是在向全世界展示你不懂机器学习。

AI创造营

众力资讯网

antirez昨晚连发10条推来说明中国模型不是靠蒸馏美国模型来变强的。当然an

热门分类