ninehills(九原山)整理的一份DeepSeek R1 阅读清单
“随着 DeepSeek R1 的发布,如果想复刻 R1 或者在某个领域实践 RFT(Reinforcement Fine-Tuning),可以看看我整理的清单,会持续更新。 同时我个人尝试的结果也会更新上。
论文:
🌟DeepSeek R1:DeepSeek R1 本体论文,写的引人入胜。
🌟Kimi K1.5:Kimi K1.5 推理模型的思路和 R1 类似,在数据和奖励函数上有更多的细节。
🌟DeepSeek Math:GRPO 算法的提出,GRPO 相比于 PPO 节约了 Value Model,从而降低了训练的显存要求。
GRPO 开源实现:主要是要支持 reward function。
🌟trl grpo trainer:TRL 的 GRPOTrainer 实现,目前尚未发版,需要安装 trl 的 main 分支。
🌟veRL:字节开源的 RL 实现,也支持 GRPO reward function。
R1 复刻项目、数据集:
🌟【重点】open-r1:包括数据合成、SFT、GRPO RL 的代码。
🌟TinyZero:在简单的类24点问题上复刻 R1 RL 范式。
🌟SkyT1:蒸馏的 QwQ 的数据实现的 o1-like 模型。
🌟HuatuoGPT-o1:医学领域复刻 o1(开放代码、数据、论文和模型),但是用的还是 reward model,效果提升很少。可以用 R1 RL 范式看看能否有明显提升。
🌟【重点】simpleRL-reason: 在 8k MATH 数据集上复刻 R1-Zero 的范式
🌟open-r1-multimodal:R1 多模态的复刻项目
🌟【重点】open-thoughts: 最成熟的 R1 复刻项目,已经发布了 Bespoke-Stratos-17k dataset 和 🌟OpenThoughts-114k dataset 项目,仅经过 SFT 即可以逼近 R1-distill 模型
🌟R1-Distill-SFT:1.68M 条 R1 蒸馏数据集
🌟【重点】grpo_demo.py: 基于 0.5B 模型的 RL demo,可以用来学习怎么训练。”