研究了一下deepseek这次提升的关键，用业内人士的话说就是，一开始就用只用强

爱知爱听 2025-01-27 01:41:24

研究了一下deepseek这次提升的关键，用业内人士的话说就是，一开始就用只用强化学习，而没有像之前业界主流那样，先用监督学习微调，再用强化学习，而且这次强化学习的方式也很简单粗暴，没有使用复杂的奖励模型或MCTS类技术，而是直接使用PPO算法，采用基于规则的奖励函数，结果高效的结果就这么涌现粗来了。其实这事儿看上去很复杂，但国内的家长和学生都懂，就是如果你孩子智商中上，要想考上清华北大，一开始就狠心直接把他扔到黄冈或者衡水，做黄冈密卷搞题海战术，比在家里给请人大附特级教师一对一监督私教，效果要强悍的多，而且花钱也要省很多。所以这种方式老歪想不出来也很正常，但在国内是常识[doge][嘻嘻][挖鼻]

0 阅读：1

感谢大家的关注

作者最新文章

1

美国的科技尤其是AI的发展和黄金是一体两面，或者说黄金的headwind是老美科

2

话说美股只能让西蒙斯这样的数学天才从科研堕落到华尔街纸醉金迷，而A股尤其是高频交

3

这几天中概超强[嘻嘻]，仅次于波动率

4

春晚二级狗最关注的节目

5

昨天中概开门红是个好兆头！祝大家新年快乐，愿国运昌隆，25年业绩长虹，被动收入超

6

还是最欣赏霍华德马克思，巴菲特的伯克希尔已经沦为超额流动性蓄积和分配的工具了。

7

国内一批瞎炒AI的人真是叶公好龙，以前流口水看着纳斯达克的英伟达炒国内的武大郎，

8

这是干嘛

9

关于DS，这缩写以前国内叫屌丝；而法国叫déesse女神；现在全球都知道叫Dee

10

老美主流玩家其实早就切到META什么的玩软的去了，硬的软的需要交互升级，就像黑客

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

财经TOP

1

蛇股第二波？

2

预增大全！逾190家公司年报预增，其中74家业绩预增100%以上：

3

机器人龙头要一字吗[笑着哭]

4

起初大家都以为，一觉醒了，牛市突然就来了起初大家都以为，牛市很近了起初大家都

5

中国近30年GDP前20城市前后变化

6

猜一下我是国产的，还是进口的？

7

刚才复牌人工智能板块时，发现一只DeepSeek概念股的日k线真是漂亮，犹如一架

8

“原来银行是这么一回事！”

9

此刻“老公”的含金量仍在上升

10

这是开始要整汇率了，现在汇率、股市、金融市场，压力都太大了

财经最新文章

1

英伟达股价反弹5%英伟达重要的合作伙伴超微电脑宣布，搭载英伟达先进的Blackw

2

英伟达大涨晚间三大消息昨天市场再次出现了大家熟悉的剧本，熟悉的节奏，面对利好，

3

特朗普VS美联储，黄金抢疯了，人民币能否顶住美元收割？“美联储不宣而战

4

为啥中国对特朗普贸易战越来越冷静？第一是因为对美出口占比逐年下降，2024年大

5

市场连板股票汇总如下：建议收藏！！1，6连板冀东装备核心题材：机器人，国企改革2

6

韩红基金会2023年账单公开，56位领薪员工共获604.219778万元薪酬。秘

7

八十岁股神大妈：节后第一个交易日，低走高走。一，最近80岁的炒股大妈出来

8

【比特币重回10万美元上方全球超51万人爆仓】美股三大指数集体收跌，纳指

9

福建，卷生卷死也没冲出去，2024年，福建GDP怒涨2959亿，名义增速5.4

10

根据目前的公开信息，DeepSeek概念股主要包括以下几类公司，共计约16家：