ninehills（九原山）整理的一份DeepSeekR1阅读清单“随着

又仁看科技 2025-01-29 16:17:07

ninehills（九原山）整理的一份DeepSeek R1 阅读清单

“随着 DeepSeek R1 的发布，如果想复刻 R1 或者在某个领域实践 RFT（Reinforcement Fine-Tuning），可以看看我整理的清单，会持续更新。同时我个人尝试的结果也会更新上。

论文：

🌟DeepSeek R1：DeepSeek R1 本体论文，写的引人入胜。

🌟Kimi K1.5：Kimi K1.5 推理模型的思路和 R1 类似，在数据和奖励函数上有更多的细节。

🌟DeepSeek Math：GRPO 算法的提出，GRPO 相比于 PPO 节约了 Value Model，从而降低了训练的显存要求。

GRPO 开源实现：主要是要支持 reward function。

🌟trl grpo trainer：TRL 的 GRPOTrainer 实现，目前尚未发版，需要安装 trl 的 main 分支。

🌟veRL：字节开源的 RL 实现，也支持 GRPO reward function。

R1 复刻项目、数据集：

🌟【重点】open-r1：包括数据合成、SFT、GRPO RL 的代码。

🌟TinyZero：在简单的类24点问题上复刻 R1 RL 范式。

🌟SkyT1：蒸馏的 QwQ 的数据实现的 o1-like 模型。

🌟HuatuoGPT-o1：医学领域复刻 o1（开放代码、数据、论文和模型），但是用的还是 reward model，效果提升很少。可以用 R1 RL 范式看看能否有明显提升。

🌟【重点】simpleRL-reason：在 8k MATH 数据集上复刻 R1-Zero 的范式

🌟open-r1-multimodal：R1 多模态的复刻项目

🌟【重点】open-thoughts：最成熟的 R1 复刻项目，已经发布了 Bespoke-Stratos-17k dataset 和 🌟OpenThoughts-114k dataset 项目，仅经过 SFT 即可以逼近 R1-distill 模型

🌟R1-Distill-SFT：1.68M 条 R1 蒸馏数据集

🌟【重点】grpo_demo.py：基于 0.5B 模型的 RL demo，可以用来学习怎么训练。”

0 阅读：5

又仁看科技

感谢大家的关注

作者最新文章

1

很受好评的性能优化开源电子书Performance Analysis and T

2

CUDA编程很难。工程师Maharshi Pandya给出了他学习CUDA的一些

3

电子书《The Tensor Cookbook》tensorcookbook.c

4

siliconflow上线新模型了，包括DeepSeek-R1、DeepSeek

5

virat举了个例子来方便理解DeepSeek的GRPO: 组相对策略优化算法：

6

电子书 immersive linear algebra《沉浸式线性代数》地址：

7

Reddit上的 osint_for_good做了一张图，通过可视化方式展现 D

8

一个在线密码学工具箱源码：github.com/istommao/Cryptog

9

nature网站上，也发了篇介绍科学家们是如何使用DeepSeek的文章：“Sc

10

视频游戏历史基金会（VGHF）开放了1,500 份经典游戏杂志和 30,000

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

荣耀和华为放一起对比，看看硬件配置。

2

这是什么手机，这么圆？？

3

二选一的话，必须小米，一秒钟都不用犹豫

4

有点想换手机的冲动了

5

据网友爆料，广东湛江deepseek创始人梁文峰，除夕回乡过年，家乡人拉横幅

6

我要有刘强东那实力，我也娶个这样的……

7

马斯克前女友当年的颜值真的是顶级啊！难怪连马斯克都被她拒绝了好几次！

8

我裸奔iPhone16ProMax了几天，发现屏幕好像变得越来越滑了，

9

荣耀总裁赵明离职果然无风不起浪，辟谣了半天今天实锤了！赵明离职正式官宣，主要

10

曾经熟悉的手机品牌

科技最新文章

1

#OpenAICEO承认在开源问题上犯错#【OpenAI首席执行官承认：在开源方

2

【#英特尔对DeepSeek进行深度优化#】美国科技巨头正积极拥抱DeepSee

3

曾经熟悉的手机品牌

4

估计华为公关放假了，这绝对是余承东自己上号发的微博[doge]

5

真的是打不过就加入！昨天还在质疑DeepSeek的硅谷大厂，如微软、英伟达、亚

6

买手机，‮纠不‬结，记住这10个‬口诀：1.第一、想要信号强，华为是优选。2

7

中国DeepSeek遭83小时暴击！国产AI圈炸锅了！一支杭州小团队用600

8

如果不是国补以后手机销量排名出来！多少人都蒙在鼓里，说句实话没有这个榜单，你永远

9

据网友爆料，广东湛江deepseek创始人梁文峰，除夕回乡过年，家乡人拉横幅

10

刚刚，星链迷你（StarlinkMini）在墨西哥上市，几分钟即可连接高速互联