4.3倍吞吐量！LMSYS联手Z Lab推出DFlash + Spec V2，挑

4.3倍吞吐量！LMSYS联手Z Lab推出DFlash + Spec V2，挑战LLM推理速度极限！

LMSYS Org最新发布DFlash + Spec V2下一代推测解码技术，已成为SGLang默认引擎。通过与Modal和Z Lab合作，在Qwen3.5 397B-A17B等大模型上实现超过4.3倍基准吞吐量提升，同时优于原生MTP（尤其是Qwen系列），在HumanEval等基准测试中表现出色。

核心创新点概括：
Block Diffusion Drafter：传统推测解码的drafter多为自回归生成，DFlash则用轻量级块扩散模型，一次前向传递就能并行生成整个token块（block），极大提升GPU并行效率。
KV Injection：将目标大模型的上下文隐藏特征注入drafter每一层的KV Cache，让小模型能“借力”大模型的理解能力，提高接受率（acceptance rate），避免上下文建模开销。
Spec V2 Overlap Scheduler：改进调度机制，实现端到端额外+33%性能提升，减少主机-设备同步瓶颈。

众力资讯网

4.3倍吞吐量！LMSYS联手Z Lab推出DFlash + Spec V2，挑

热门分类