SemiAnalysis发布了对DeepSeek的分析,回应了最近有关其成

访烟随心世界 2025-02-01 03:55:46

SemiAnalysis 发布了对 DeepSeek 的分析,回应了最近有关其成本和性能的指控。 报告指出,广为流传的 DeepSeek V3 600 万美元训练成本是不正确的,因为它只考虑了 GPU 预训练费用,而不包括研发、基础设施和其他关键成本。根据他们的调查结果,DeepSeek 的总服务器资本支出约为 13 亿美元,其中很大一部分用于维护和运营其 GPU 集群。 报告还指出,DeepSeek 可以使用大约 50,000 个 Hopper GPU,但澄清说,这并不意味着 50,000 个 H100,正如一些人所说的那样。相反,它是 H800、H100 和中国专用的 H20 的混合体,NVIDIA 一直在生产这些产品以应对美国的出口限制。 SemiAnalysis 指出,DeepSeek 运营着自己的数据中心,与大型 AI 实验室相比,其结构更为精简。在性能方面,报告指出,R1 在推理任务中与 OpenAI 的 o1 相当,但并非在所有指标上都遥遥领先。 报告还强调,虽然 DeepSeek 因其定价和效率而备受关注,但谷歌的 Gemini Flash 2.0 也同样强大,而且通过 API 访问时甚至更便宜。报告提到的一项关键创新是多头潜在注意力 (MLA),它通过将 KV 缓存使用率降低 93.3% 来显著降低推理成本。 报告指出,DeepSeek 所做的任何改进都可能立即被西方人工智能实验室采用。SemiAnalysis 还提到,到今年年底,成本可能会再下降 5 倍,而且与规模更大、更官僚的人工智能实验室相比,DeepSeek 的结构使其能够快速行动。 然而,报告指出,在美国出口管制收紧的情况下扩大规模仍然是一个挑战。

0 阅读:160

评论列表

一日不可无音乐

一日不可无音乐

1
2025-02-01 22:21

若是什么都能简单超过去的话,Deepseek会开源?太天真了,真当Deep seek傻子?其肯定有类似tiktok的算法之类的对外不公开的东西

访烟随心世界

访烟随心世界

感谢大家的关注