读了一下deepseek的论文《DeepSeek-R1:Incentivizi

听风谈 2025-01-29 00:27:50

读了一下deepseek的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。DeepSeek最核心的两个创新,一个是采用纯强化学习跳过监督微调,一个是采用蒸馏技术把大模型提炼成小模型节省算力。(Distillation这个词实在是印象太深刻了。)DeepSeek最有趣的是它的“啊哈时刻”,这是它和所有其他AI最典型的区别特征。

0 阅读:28
听风谈

听风谈

感谢大家的关注