众力资讯网

DeepSeek发布DSparkDeepseek发布DSpark技术并开源模型!

DeepSeek发布DSparkDeepseek发布DSpark技术并开源模型!这篇论文提出了 DSpark,一个面向高并发场景的推测解码框架,旨在加速大语言模型推理。

其核心贡献分为两点:1. 半自回归生成架构传统并行解码器(如DFlash)虽快,但块内 token 相互独立,缺乏依赖,导致长序列生成时后缀接受率急剧衰减。DSpark 引入一个轻量级顺序模块(Markov头或RNN头),在保持并行骨干高效的同时,注入局部 token 依赖,显著缓解了这一衰减问题,使接受长度超越强基线 EAGLE3 和 DFlash。2. 负载感知的置信度调度验证DSpark 配备一个置信度头,预测每个 draft token 的生存概率,并通过温度缩放进行校准。结合硬件预配置的性能曲线,调度器会动态为每个请求裁剪验证长度——低负载时充分利用算力,高并发时优先验证高置信 token,避免浪费验证资源。在离线基准测试中,DSpark 的接受长度显著优于现有方法。在 DeepSeek-V4 生产环境部署后,它有效扩展了系统的吞吐-延迟帕累托前沿,在相同吞吐下将单用户生成速度提升了 60%~85%,并能在严格延迟约束下维持服务质量。