zarker 2025-02-13 00:36 可怜,不懂就不要说。deepseek最主要贡献将强化学习RL用在r1上,并阐述的具体行之有效的方法,并发表论文阐述。RL虽然各个公司都用,但没有统一的有效方法。
龘骉
deepseek的贡献就是把他们吹的🐮🍺🪣破了
zarker
可怜,不懂就不要说。deepseek最主要贡献将强化学习RL用在r1上,并阐述的具体行之有效的方法,并发表论文阐述。RL虽然各个公司都用,但没有统一的有效方法。