看了李广密(拾象创始人)组织的关于 DeepSeek 的闭门沟通会内容,这次看齐DeepSeek 的开源性,所以对闭门会的思考也对外公开。
最近对这场 AI 界“拼多多”的崛起深感好奇,读了后,我也摘取几个很有意思的点和大家分享:
★DeepSeek 引出的中美博弈。
国内公司原来受限在算力,现在证明了潜在的技术空间非常大。对于更需要效率的模型,可能不需要特别大的卡。
DeepSeek 肯定没有说的 5 万张卡那么多,目前有 1 万张老的 A100 ,可能有 3000 张禁令之前的 H800 ,DeepSeek 还是非常重视合规性的,所以卡肯定不会很多。(美国用 GPU 的方式还是过于粗放了)
但 DeepSeek 跟算力没有太大关系,英伟达的软肋也不在 DeepSeek ,只要 AI 还在发展,英伟达的生态就能发展。真正的危机是技术成熟后,变成标准品,大家会更关注产品,就有有很多 ASIC 芯片出来做特定场景的优化。(但我看了下英伟达的股价,刚塌了[笑cry])
DeepSeek更多是让美国觉得中国比较厉害在效率上,中国作为追赶者,体现出来的工程能力发挥很大优势,这可能是未来中美很长一段时间 AI 格局的推演。(和国内智驾与美国 FSD 非常相似)
历史上中国被美国封锁的东西,一旦被突破就会变得非常卷,AI 可能也是,DeepSeek 就跑出来了一个证明。
但我们必须正视一个客观问题是,DeepSeek 还是站在巨人的肩膀上,探索前沿还是需要时间和成本,R1 并不代表未来前沿的训练成本也会同时降低。
★DeepSeek 之所以被关注,更多是开源和闭源路线之争。
这可能导致 OpenAI 等把好的模型藏在后面,DeepSeek 出来后其他 AI 公司会拿出来。
★DeepSeek的成功关键因素在于聚焦。
DeepSeek 聚焦在智能本身,而不在服务人,后续也放弃了很多东西,聚焦在一个很窄的点,比如语言,所以能出效果。
这里大家也衍生出一个本质问题。
Ai 更像一个阶跃函数,追赶者的算力需求少了 10 倍。但探索者还是要训练更多的模型,除了推理模型外,很多探索者的卡其实花在大家看不到的地方。
比如在探索一个方向的时候,1 万张卡的效果不一定比 1 千张来的好,但探索会成为一个门槛,卡的数量起码会决定一次方案迭代的时间周期,其次还会影响稳定性(1 千张卡训练的模型没有 1 万张来的稳定)。
所以到底是追赶者还是探索者,问题要变得清晰。小公司卡不多的前提,就需要考虑效率。大公司考虑是如何更快得到模型。
★数据标注,是模型效率的关键。
DeepSeek 在数据标签上非常重视,梁文锋(创始人)听说也会自己打标签。
除了算法和技巧,数据的精度也变得非常关键。
比如特斯拉的标注成本是国内的 20 倍,特斯拉机器人的动作找的是小脑非常健康的人做的标注,丝滑度更好。所以在数据标注投入上,是 DeepSeek 处理好模型效率的关键指标之一。
★关于蒸馏的优势和隐患。
从大模型到小模型进行蒸馏才是真的蒸馏,如果从完全不懂中文的模型中蒸馏出中文数据,性能可能下降。但蒸馏小模型确实有明显的性能优势,比如 R1 蒸馏的模型再做强化学习会增长很多,都是用的模型不匹配的数据做的。
但蒸馏的坏处是无法保证模型的多样性能力,包括上限能力,无法超越更强的模型。比如 Open AI 就没有数据蒸馏,要超过 Open AI 肯定不能做蒸馏。
未来模型生态里可能会有老师、学生的角色区分,但如果有能力当一名好学生也是一个不错的商业模式。
其次蒸馏还有一个隐患问题是模型可能在预训练背了很多题,明面在思考,实际会去靠近背的题得到答案,模型变得不会思考,而是用更简单的方式解决。
★DeepSeek的组织
DeepSeek 的组织有一个很有意思的现象,大家都是国内高校毕业的年轻人,然后把团队慢慢的变得强大。(听说员工不招 8 年以上,因为包袱过重,缺乏创新)
(我在 36 氪暗涌也看过梁文锋对组织创新的看法:“如果追求短期目标,找有经验的人是对的,但是长远看经验没那么重要,基础能力、创造性、热爱等更重要。”)
★多模态依旧有很大挑战。
在训练上,多模态的数据看不到效果,或者说成本太高,可能未来机会比较大。现在海外的 GPT5 也还没有出来。