黄仁勋叫停特供芯片生产,英伟达,再见!DeepSeek再次立功
中国AI初创企业深度求索也在加快推动一项新标准落地,宣布其最新的DeepSeek‑V3.1大模型将全面适配国产芯片,并推出了一种名为UE8M0 FP8的新型低精度计算格式,专门针对下一代国产芯片进行优化,DeepSeek这次的核心贡献,在于用技术标准为国产芯片打开了一条捷径,目前,国际主流的低精度AI计算标准是由英伟达主导的FP8格式,分为E4M3和E5M2两种,深度绑定在CUDA体系中,问题在于,国产芯片既无法直接复刻英伟达的硬件逻辑,也没法完全兼容其软件栈。
如果继续沿用E4M3和E5M2,需要在硬件设计、驱动优化和框架适配上投入巨大资源,而这条路在美国技术封锁下几乎走不通,DeepSeek提出的UE8M0 FP8则不同,它舍弃了复杂的尾数运算,只保留指数部分,虽然牺牲了一部分精度,但换来硬件实现的极大简化,对国产芯片厂来说,这意味着无需在硬件层面追赶英伟达复杂的FP8实现,就能快速支持大模型推理和训练,这是第一次,由中国公司提出的计算精度标准,可能成为国产AI芯片的事实标准。
这次V3.1发布后,国内多家芯片厂商已经表态会全面支持UE8M0 FP8,包括华为昇腾、寒武纪、燧原、壁仞等头部厂商,连多家AI框架团队也开始在PyTorch和MindSpore的定制分支中加入适配接口,资本市场的反馈更加直观,寒武纪、中芯国际、华虹半导体等概念股当日涨幅均超过10%,反映出行业对国产替代前景的强烈信心,DeepSeek并不是想替代英伟达的高端算力,而是通过降低软硬件门槛,让国内AI企业至少在推理、数据中心和边缘AI等中低算力场景上,未来两到三年能摆脱对英伟达的依赖,可以说是解决了从无到有的问题。
不过DeepSeek的UE8M0 FP8仍然是一种务实的过渡方案,在大模型训练、科研计算和多模态高精度应用等领域,英伟达的H100、H200甚至即将量产的B200依然保持领先,尤其在能效比、硬件并行度和CUDA生态深度上,国产芯片短期内仍有一定差距,DeepSeek的意义在于,它让中国AI产业第一次有机会不被英伟达卡死,并且在低精度计算和算力调度上自建标准,未来三到五年,中国AI行业可能会形成两条腿走路的格局,通过DeepSeek标准和国产芯片实现算力逐渐实现自给,这一次,DeepSeek不只是推出了一个大模型,而是给国产芯片和国内AI生态争取了战略主动权。