众力资讯网

4.3倍吞吐量!LMSYS联手Z Lab推出DFlash + Spec V2,挑

4.3倍吞吐量!LMSYS联手Z Lab推出DFlash + Spec V2,挑战LLM推理速度极限!

LMSYS Org最新发布DFlash + Spec V2下一代推测解码技术,已成为SGLang默认引擎。通过与Modal和Z Lab合作,在Qwen3.5 397B-A17B等大模型上实现超过4.3倍基准吞吐量提升,同时优于原生MTP(尤其是Qwen系列),在HumanEval等基准测试中表现出色。

核心创新点概括:
Block Diffusion Drafter:传统推测解码的drafter多为自回归生成,DFlash则用轻量级块扩散模型,一次前向传递就能并行生成整个token块(block),极大提升GPU并行效率。
KV Injection:将目标大模型的上下文隐藏特征注入drafter每一层的KV Cache,让小模型能“借力”大模型的理解能力,提高接受率(acceptance rate),避免上下文建模开销。
Spec V2 Overlap Scheduler:改进调度机制,实现端到端额外+33%性能提升,减少主机-设备同步瓶颈。