【国盛计算机】国内模型开启世界级竞赛摘自刘高畅/李可夫计算机畅想开源DeepS

姬锋 2025-02-02 10:28:46

【国盛计算机】国内模型开启世界级竞赛

摘自刘高畅/李可夫计算机畅想

开源DeepSeek-R1低成本对标o1，震撼海外科技界。2025年1月20日，DeepSeek开源DeepSeek-R1模型，在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。同时DeepSeek通过 DeepSeek-R1 的输出，蒸馏了6个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini的效果。DeepSeek-R1 API服务定价远低于OpenAI o1。OpenAI CEO 1月24日称将向ChatGPT 免费用户提供o3-min，我们认为这体现了DeepSeek给到OpenAI的竞争压力。海外微软、亚马逊、英伟达、AMD纷纷将DeepSeek模型适配到自己的云服务或硬件，美国总统特朗普称DeepSeek给美国的科技行业敲响警钟，彰显了业界对DeepSeek技术实力的认可。

DeepSeek技术路径解析：算法层面多维度优化。DeepSeek团队在算法上的创新和工程上的极致优化。据DeepSeek-R1论文DeepSeek-V3技术报告，其优化包括以下方向：1）不需要监督微调，纯强化学习驱动。2）强化学习算法的创新：包括开发GRPO算法节省了强化学习的训练成本；没有应用结果或过程奖励模型，而采用了基于规则的奖励系统。3）多头潜在注意力机制（MLA）和专家混合架构(MOE)的结合。4)FP8混合精度框架。5)使用PTX从更底层调用硬件。DeepSeek证明了在大模型的发展进程中除了算力，软件层面的优化同样占据着举足轻重的地位，中国拥有大量高素质的算法设计、模型优化等方面的专业人才，为中国在大模型领域追赶和超越世界前沿水平提供了重要的支撑。

字节大模型进展不断，应用落地加速。1）1月20日豆包实时语音大模型在豆包 APP 全量开放，在情绪理解和情感表达方面与GPT-4O相比优势明显。情商层面，模型在情感理解、情感承接以及情感表达等方面也取得显著进展，能较为准确地捕捉、回应人类情感信息。2）1月22日，豆包全新基础模型 Doubao-1.5-pro发布，能力全面升级，并进一步提升了多模态能力。Doubao-1.5-pro使用MoE 架构，仅用较小激活参数，即可比肩一流超大稠密预训练模型的性能，探索模型性能和推理性能之间的极致平衡。豆包团队还通过 RL 算法的突破和工程优化研发了深度思考模式，在AIME上已经超过O1-preview，O1等推理模型。

国产模型进步影响深远，打开广阔投资机遇。国产大模型技术的不断进步带来的变革令人期待。1.更低的成本让企业在开发 AI 应用时，能够以、更高的效率进行，有望加速国内 AI 应用从概念走向实际落地。DeepSeek开源的蒸馏小模型超越 OpenAI o1-mini也有望为模型加速在端侧落地。2.算力效率提高，AGI有望来临。我们认为算力利用效率的提高一方面有望加速大模型的进步，另一方面也降低了大模型的训练和部署门槛，有望激励更多玩家入局大模型产业。微软CEO引用“杰文斯悖论”，表示随着 AI 的效率和可访问性越来越高，我们将看到它的使用量猛增。大模型应用对算力的需求为国产算力产业链带来了巨大的发展机遇。3.投资内容更加丰富，包括1）互联网大厂合作生态如软件服务商；2）AI Agent如各领域SAAS；3）其他细分领域如目前AI技术应用于军事领域，特种云建设有望加速；AI 编程提升效率，计算机行业公司深度受益。

建议关注：

AI Agent软件：萤石网络、汉得信息、中科创达、鼎捷数智、海天瑞声、新致软件、云天励飞、焦点科技、泛微网络、致远互联、金山办公、润达医疗、星环科技、协创数据、创业黑马、恒生电子、迈富时、小商品城、金证股份、卫宁健康、创业慧康、晶泰控股、佳发教育、嘉和美康、金桥信息、新大陆等。

字节AI链：寒武纪、恒玄科技、天键股份、润欣科技、实丰文化、乐鑫科技、萤石网络、中芯国际、孩子王、润泽科技、欧陆通、华懋科技、浪潮信息、中兴通讯、中科曙光、兆易创新、国光电器、法本信息、新致软件、亚康股份、申菱环境、兆龙互连等。

军工AI：能科科技、品高股份、海格通信、振芯科技、道通科技。

风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。

0 阅读：26