众力资讯网

antirez昨晚连发10条推来说明中国模型不是靠蒸馏美国模型来变强的。当然an

antirez昨晚连发10条推来说明中国模型不是靠蒸馏美国模型来变强的。当然antirez说的蒸馏是蒸馏的原始定义 大模型输出 logits (输出分布),小模型学习 logits 。而现在“蒸馏”这个词已经被滥用了,有很多引申的不同含义,所以相关讨论里还是有很多争议。。

------------------还有一件重要的事:中国模型强,并不是因为它们蒸馏了美国模型。通过 API 进行模型蒸馏是*不可能的*。如果有人告诉你相反的说法,那说明他们不懂机器学习:

1. 蒸馏需要访问数量极其庞大的请求,并且必须能获得*完整的 logits*,包括思维链生成过程中的 logits,而思维链通常是被摘要化的。2. 通过 API 调用进行蒸馏,就像只看到一个极其复杂曲面上的几个点,却仍然能复现这个复杂曲面。从数学上说,这就是科幻。3. DeepSeek 在 R1 论文中创建的蒸馏版本之所以提升了目标模型,是因为那些目标模型虽然已经在大量 token 上预训练过,但没有接受过“思考”训练;潜在能力本来就在那里。不过即便如此,这些蒸馏版本也并不算特别出色。4. 你真正能做的是为强化学习流程获取高质量信号。这有点用,但并不关键;首先你得有一套能跑通的强化学习流程,而这才是真正的工程难点所在。5. 即使你手上有模型,蒸馏也很难:现在已经有很多前沿中国模型可用,但许多实验室,包括欧洲实验室,也无法提供与它们对齐的模型。6. DeepSeek 已经公布了它们如何搭建预训练、SFT 和 RL 流程的细节。这些结果甚至已经被复现。为什么相比可复现且公开的结果,你更愿意相信“飞天猴子”?他们已经向你展示了自己有能力训练好大模型。7a. 当有人坚持这种机器学习上的荒谬说法时,你可以问他们:你声称模型从 Y 来源学到了 X 能力,那好,请给我展示信息路径。预训练?那需要数万亿 token。7b. 带验证器的强化学习?没有,因为它需要来自探索的奖励信号。完整 logits?那是教师模型的完整分布,而从 o1 或类似模型开始,这些信息根本拿不到。所以信息通道到底是什么?

总结:别再重复这种胡说八道了。即使你的简介里写着“AI 专家”,你也只是在向全世界展示你不懂机器学习。

AI创造营