众力资讯网

nvidia的新研究博客:把智能推向 4 位精度网页链接传统上,模型训练和推理常

nvidia的新研究博客:把智能推向 4 位精度网页链接

传统上,模型训练和推理常用 FP16/BF16 或 FP8;而 FP4 只用 4 个比特表示一个数,能显著减少显存占用和数据搬运量,但也更容易损失精度。NVIDIA Blackwell GPU 支持的 NVFP4 格式,用更细粒度的缩放机制,让 4 位浮点不再只是“压缩存储”,而开始进入训练、推理、KV Cache 和注意力计算这些核心路径。

前几天nvidia已经发布了Qwen3.6-27B-NVFP4 模型,huggingface.co/nvidia/Qwen3.6-27B-NVFP4,跑分和FP8几乎一样。