金融时报这篇《DeepSeek’snextAImodeldelayed

映梦说汽车啊 2025-08-15 21:35:24

金融时报这篇《DeepSeek’s next AI model delayed by attempt to use Chinese chips》,就不做评论了,放一下全文:

中国人工智能公司 DeepSeek 在使用华为芯片训练新模型失败后,推迟了新品发布,这凸显了 Beijing 在推动替代 US 技术方面所面临的局限性。

知情人士透露,在今年 1 月发布 R1 模型后,DeepSeek 在官方鼓励下,被建议采用华为昇腾处理器,而不是英伟达的系统。

然而,这家初创企业在使用昇腾芯片进行 R2 模型训练时,持续遭遇技术问题,最终不得不改用英伟达芯片完成训练,并仅在推理阶段使用华为芯片。知情人士称,这些问题是导致该模型原定于 5 月的发布被推迟的主要原因,使其在竞争中落后。

DeepSeek 的困境表明,China 芯片在关键任务上仍落后于 US 同类产品,这突显了 China 在实现科技自给自足道路上的挑战。

《金融时报》本周报道称,Beijing 方面已要求 China 科技企业在采购英伟达 H20 芯片时提供合理解释,以此鼓励它们采用华为和寒武纪等公司生产的替代方案。

业内人士表示, China 芯片在稳定性、芯片间通信速度以及配套软件等方面,均不及英伟达产品。

据两名知情人士透露,华为曾派出工程师团队进驻 DeepSeek 办公室,协助其利用昇腾芯片开发 R2 模型。但即便在工程师团队现场支持下,DeepSeek 依然未能在昇腾芯片上成功完成一次训练。

知情人士还称,DeepSeek 仍在与华为合作,努力让该模型在推理阶段兼容昇腾芯片。公司创始人梁文锋在内部表示,对 R2 的进展并不满意,并推动延长研发时间,以打造一款能够维持公司在人工智能领域领先地位的先进模型。

另有知情人士补充称,R2 推迟发布的另一个原因是新版本模型的数据标注工作耗时比预期更长。中国媒体报道称,该模型有可能在未来几周内发布。

「模型是可以轻易被替换的商品。」加州大学伯克利分校人工智能研究员 Ritwik Gupta 说,「很多开发者都在用阿里巴巴的 Qwen3,它既强大又灵活。」

Gupta 指出,Qwen3 采用了 DeepSeek 的核心理念,例如让模型具备推理能力的训练算法,但在使用效率上做了优化。

Gupta 关注华为的 AI 生态系统,他表示华为在用昇腾进行训练时正经历「成长的阵痛」,但预计这家中国的 national champion 最终会适应。

「只是今天我们没有看到在华为芯片上训练出的顶尖模型,并不意味着未来不会出现。这只是时间问题。」他说。

作为 CN-US 地缘政治博弈核心的芯片制造商,英伟达近日同意将其在 China 的部分收入上缴 US 政府,以换取恢复在 China 销售 H20 芯片的许可。

英伟达在谈到 China 企业使用其芯片时表示:「开发者将在构建最终胜出的 AI 生态系统中发挥关键作用。放弃整个市场和开发者,只会损害 US 的经济与国家安全。」

DeepSeek 和华为均未回应置评请求。

0 阅读:28

猜你喜欢

映梦说汽车啊

映梦说汽车啊

感谢大家的关注