读了一下deepseek的论文《DeepSeek-R1:Incentivizi

听风谈 2025-01-29 00:27:50

读了一下deepseek的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。DeepSeek最核心的两个创新，一个是采用纯强化学习跳过监督微调，一个是采用蒸馏技术把大模型提炼成小模型节省算力。（Distillation这个词实在是印象太深刻了。）DeepSeek最有趣的是它的“啊哈时刻”，这是它和所有其他AI最典型的区别特征。

0 阅读：28

感谢大家的关注

作者最新文章

1

疯了，微牛上市第一天，一个小时股价涨了257%，市值217亿美元。微牛是前阿里员

2

微牛上市。微牛和富途、老虎一样，都是互联网行业出身的人，用互联网的方式，在海外重

3

读完《神美隐现：史前·夏商卷》，通过对中国史前时代彩陶到青铜器上的图案，解读先民

4

最近在研究《社区再投资法案》（Community Reinvestment Ac

5

这个厉害，用一万年前骨头里的DNA复活了三只恐狼。该公司还计划复活猛犸象。

6

读完《国画的细节》，讲解国画欣赏最好的一本书。作者沿时光轴铺开五十多位画家一百多

7

真心佩服ChatGPT的Deep Research，给了一个模板和几个提示词，1

8

一眼就能看出商业计划书是不是AI写的。凡是用词非常准确，条理非常清晰，都是AI写

9

读完《大钱细思》，作者是富达低价股基金掌舵人，彼得·林奇的接班人，连续30年投资

10

美国财政部货币监理署（简称OCC，相当于国内的银保监会），上周发文。过去美国银行

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

财经TOP

1

贸易战最差结果墨西哥变成90年代香港！1、假设中美互加关税并且不取消，那其实就

2

范思哲被prada收购了，这牌子早就不行了，看找的所谓代言就知道了

3

公司会议上投屏，绷不住了

4

去年，黄金价格一路猛涨。有人发现白银价格出奇的低，一克才4块8，就想着另辟蹊径，

5

工作忙，提前收市没想到逃过一劫

6

苹果市值4天蒸发超5万亿元全球90%的iPhone在中国生产，从中国出口到美国

7

一觉睡醒，最大的消息出现了，人民币一夜跌超800点，汇率居然跌破7.4大关口了，

8

月薪4千搬运工瞒家人买454万保险这种直接不惯着，投诉银保监会！😡😡[怒

9

4月1日，全天封板复盘。

10

东方集团末日翘板，成交量2.92亿，换手高达22.53%，恐怕只有大股东才知道公

财经最新文章

1

A股突破3300点最后的警告，不管你现在是空仓还是满仓，请务必听我一句！！！！

2

4月21日，底部放出巨量的个股名单（数据持续更新）

3

中越跨境支付绕开美元天呐！越南这招真是太狠了！他们表面上

4

#金价#【中国黄金期货价格首次突破800元/克】今日，上期所黄金期货主力合约突破

5

金价黄金市场这波涨势太惊人！COMEX黄金期货冲破3350美元/盎司，国内足金首

6

下列股票将被实施退市风险警示，即*ST。（总共45只，分两期发布）1、阳光股份，

7

如果不出意外楼市接下来将重新进入决策者的眼中为什么呢因为股市不行没办法实践出真知

8

亲眼见证表舅被股市套牢全过程。某股票48块时，他押20万买4100股，跌到24块

9

黄金连创历史新高后转跌金价跌的速度永远赶不上上涨的速度，目前大盘金价来到了787

10

贝壳董事长的7亿年薪，打了多少人的脸网上，贝壳公司董事长年薪7亿，引发了网民热