谷歌DeepMind推出实验性开源扩散文本生成模型DiffusionGemma,26B参数的MoE,激活4B,它突破传统Transformer的token-by-token自回归生成方式,采用扩散(Diffusion)机制一次性生成文本块,从而在专用GPU上实现最高4倍的输出速度提升,同时支持实时自我修正和复杂Markdown格式的更好处理。
传统大语言模型像写文章一样一个字一个字往外“抠”,效率天生受限,尤其在本地部署时,延迟成为最大痛点。DiffusionGemma的创新在于把图像/视频生成领域的扩散思想成功迁移到文本上:它不是一步步预测下一个token,而是从噪声中逐步“去噪”生成整个文本块。这种并行化思路,直接把生成过程从串行变成了高度并行的“多画布”采样,速度飞跃的同时,还带来了实时反思和纠错能力——模型可以在生成过程中“看到”已经产出的块,及时调整,这对长文本、代码和结构化输出(如复杂Markdown表格、代码块)特别友好。
