研究了一下deepseek这次提升的关键,用业内人士的话说就是,一开始就用只用强化学习,而没有像之前业界主流那样,先用监督学习微调,再用强化学习,而且这次强化学习的方式也很简单粗暴,没有使用复杂的奖励模型或MCTS类技术,而是直接使用PPO算法,采用基于规则的奖励函数,结果高效的结果就这么涌现粗来了。其实这事儿看上去很复杂,但国内的家长和学生都懂,就是如果你孩子智商中上,要想考上清华北大,一开始就狠心直接把他扔到黄冈或者衡水,做黄冈密卷搞题海战术,比在家里给请人大附特级教师一对一监督私教,效果要强悍的多,而且花钱也要省很多。所以这种方式老歪想不出来也很正常,但在国内是常识[doge][嘻嘻][挖鼻]
研究了一下deepseek这次提升的关键,用业内人士的话说就是,一开始就用只用强
爱知爱听
2025-01-27 01:41:24
0
阅读:1