DeepSeek 现在我是你爹了Deepseek V4发布后,一直引发了一些小争议。至于原因众说纷纭,我也说一下,个人小猜测。不排除与大模型跨算力迁移有一定的联系,当然,这只是猜测
Deepseek以前更多依赖英伟达算力训练和推理,这一次基于昇腾算力对V4模型做了推理适配,后训练与推理阶段V4-Flash后训练由昇腾完成,当前对外开放的API推理也运行在昇腾上。DeepSeek首次将昇腾NPU与英伟达GPU共同写入技术报告的硬件验证清单
不排除平台切换模型迁移过程中,工程压力过大导致对齐缺陷,这种风格突变是否与后训练pipeline在迁移过程中的调试压力有关,目前尚无技术证据,欢迎讨论
或者更简单的说,这不是华为的硬件不行,也不是Deepseek变得更差了,而是一个硬件迁移过程中的阵痛阶段。从英伟达部分向华为昇腾迁移,许多技术需要调整。随着越来越倾向国产硬件,迁移过程中的问题可以得到逐渐解决