盘一盘DeepSeekR1最大的亮点

细看甲子光年 2025-01-23 15:13:16

DeepSeek R1发布的论文中提到，提升推理能力的一种有效办法是“后训练”（post-training），主要包括监督微调（Supervised Fine-Tuning, SFT）和强化学习（Reinforcement Learning, RL）两个方向。 SFT的使用是ChatGPT当初成功的关键，而今天的R1 Zero完全用RL取代了SFT。可以说，此次DeepSeek R1发布最大的亮点，就是“没有监督微调下的直接强化学习”。

0 阅读：2

细看甲子光年

感谢大家的关注

作者最新文章

1

获得诺贝尔物理学奖的Hopfield和Hinton是谁

2

我国科学家研究分布式光量子计算获重要进展

3

美国AI监管“里程碑”法案被否决

4

33亿元！蔚来中国获战略投资者新一轮增资

5

侯晓迪新公司官宣获2000万美元Pre-A轮融资

6

OpenAI发布类人语音助手，会说50多种语言

7

SpaceX计划向火星发射无人星际飞船，时间是

8

刚刚，微信朋友圈可以发实况照片了

9

多个品牌有三折叠手机计划，最大12.4英寸

10

这条关于中国车企的“神预测”，十年了！

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米创始人雷军的主要家庭成员父亲：雷培华，曾是湖北仙桃市教育局的官员，现已过

2

有没有注意到海尔老板的领带上都是空调、洗衣机，双开门冰箱，细节满满。

3

买iPhone16的是不是肠子都悔青了？

4

现在的ai换脸真离谱…

5

2025年最值得买的手机，你选哪个

6

某搜索已经很久不用了，还有好几个几乎就胎死腹中了。李开复说的可能是对的！

7

iPhone17的设计几乎与iPhone16一样，那买标准版谁知道我换

8

iPhone17系列将采用LTPO屏幕也就是说，标准版iPhone终于要放弃6

9

【#OpenAI称DeepSeek是另一个华为#：受“国家补贴”、“国家控制”】

10

这玩意AI也能生成？[捂脸哭]

科技最新文章

1

继3月初推出新一代快思考模型混元TurboS后，腾讯星期五（3月21日）深夜宣

2

某搜索已经很久不用了，还有好几个几乎就胎死腹中了。李开复说的可能是对的！

3

关于华为新手机阔型屏手机，我发现了一个有意思的细节，就是华为真的很实诚，没有给大

4

【#周云杰回应出圈#：最大的收获不是让网友认识我个人，而是让海尔站在了大家面前

5

华为新机到柜了，第一时间上手试了下，只说说外观哈，大屏这个宽度单手是无法操作的，

6

刚刚发布的，华为PuraX，三大缺点:一、没有新形态:麻烦余大嘴给解

7

关于华为这次16：10的这款手机，有几句话想说：打工人挤地铁掏手机总要卡包？

8

看完华为阔折叠PuraX发布会之后，已经不是强的飞起和遥遥领先了。7499起步

9

一觉醒来，苹果和小米都沉默了，华为在Pura先锋盛典上推出的PuraX太过

10

这玩意AI也能生成？[捂脸哭]