谷歌开源26B扩散MoE：生成速度狂飙4倍！

今天一早，谷歌又发新模型了！

Gemmna 家族有了新成员 ——DiffusionGemma，一个探索文本扩散的实验性开源模型

首先是推理速度非常快。

DiffusionGemma 将解码瓶颈从内存带宽转向计算本身，因此在专用 GPU 上，token 输出速度最高可提升至 4 倍。在单张 NVIDIA H100 上，它可以达到每秒 1000+ tokens；在 NVIDIA GeForce RTX 5090 上，也能达到每秒 700+ tokens。

其次是硬件门槛相对友好。

DiffusionGemma 是一个总规模为 26B 的 MoE 模型，但推理时只激活 3.8B 参数。经过量化后，它可以比较轻松地运行在 18GB 显存以内的高端消费级独立显卡上。

第三，它支持双向注意力。

每次前向计算可以并行生成 256 个 token，并且每个 token 都能看到其他 token。这让它在一些非线性场景中更有优势，比如行内编辑、代码补全、氨基酸序列生成，或者数学图结构。

第四，它具备一定的自我修正能力。

模型会通过多轮迭代不断 refine 自己的输出，并且可以一次性查看整个文本块，从而实时发现并修正错误。

众力资讯网

谷歌开源26B扩散MoE：生成速度狂飙4倍！

热门分类