ninehills(九原山)整理的一份DeepSeekR1阅读清单“随着

又仁看科技 2025-01-29 16:17:07

ninehills(九原山)整理的一份DeepSeek R1 阅读清单

“随着 DeepSeek R1 的发布,如果想复刻 R1 或者在某个领域实践 RFT(Reinforcement Fine-Tuning),可以看看我整理的清单,会持续更新。 同时我个人尝试的结果也会更新上。

论文:

🌟DeepSeek R1:DeepSeek R1 本体论文,写的引人入胜。

🌟Kimi K1.5:Kimi K1.5 推理模型的思路和 R1 类似,在数据和奖励函数上有更多的细节。

🌟DeepSeek Math:GRPO 算法的提出,GRPO 相比于 PPO 节约了 Value Model,从而降低了训练的显存要求。

GRPO 开源实现:主要是要支持 reward function。

🌟trl grpo trainer:TRL 的 GRPOTrainer 实现,目前尚未发版,需要安装 trl 的 main 分支。

🌟veRL:字节开源的 RL 实现,也支持 GRPO reward function。

R1 复刻项目、数据集:

🌟【重点】open-r1:包括数据合成、SFT、GRPO RL 的代码。

🌟TinyZero:在简单的类24点问题上复刻 R1 RL 范式。

🌟SkyT1:蒸馏的 QwQ 的数据实现的 o1-like 模型。

🌟HuatuoGPT-o1:医学领域复刻 o1(开放代码、数据、论文和模型),但是用的还是 reward model,效果提升很少。可以用 R1 RL 范式看看能否有明显提升。

🌟【重点】simpleRL-reason: 在 8k MATH 数据集上复刻 R1-Zero 的范式

🌟open-r1-multimodal:R1 多模态的复刻项目

🌟【重点】open-thoughts: 最成熟的 R1 复刻项目,已经发布了 Bespoke-Stratos-17k dataset 和 🌟OpenThoughts-114k dataset 项目,仅经过 SFT 即可以逼近 R1-distill 模型

🌟R1-Distill-SFT:1.68M 条 R1 蒸馏数据集

🌟【重点】grpo_demo.py: 基于 0.5B 模型的 RL demo,可以用来学习怎么训练。”

0 阅读:5
又仁看科技

又仁看科技

感谢大家的关注