盘一盘DeepSeekR1最大的亮点

细看甲子光年 2025-01-23 15:13:16
DeepSeek R1发布的论文中提到,提升推理能力的一种有效办法是“后训练”(post-training),主要包括监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)两个方向。 SFT的使用是ChatGPT当初成功的关键,而今天的R1 Zero完全用RL取代了SFT。可以说,此次DeepSeek R1发布最大的亮点,就是“没有监督微调下的直接强化学习”。

0 阅读:2
细看甲子光年

细看甲子光年

感谢大家的关注