目前看到对DeepSeek真实水平最全面客观的分析(3)
摘自基本常识
深度求索的成本与性能
本周,深度求索的价格和效率引发了热潮,主要焦点是深度求索 V3 的 “600 万美元” 训练成本。但这是错误的。这就好比只看产品物料清单上的某一部分,却将其视为整个产品的成本。预训练成本只是总成本中很小的一部分。
训练成本
我们认为预训练成本远非该模型的实际投入。我们确信,在公司发展历程中,他们在硬件上的花费远高于 5 亿美元。为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和 GPU 计算时间。深度求索的关键创新 —— 多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。
论文中提到的 600 万美元成本仅指预训练运行的 GPU 成本,这只是模型总成本的一部分。研发费用和硬件本身的总拥有成本等重要部分并未计算在内。参考一下,Claude 3.5 Sonnet 的训练成本高达数千万美元,如果这就是 Anthropic 所需的全部成本,他们就不会从谷歌筹集数十亿美元,也不会从亚马逊筹集数百亿美元了。这是因为他们必须进行实验、提出新架构、收集和清理数据、支付员工工资等等。
那么深度求索是如何拥有如此庞大的集群的呢?出口管制的滞后是关键,下面在出口管制部分会详细讨论。