腾讯港科大魔改DeepSeek长文本，显存降86%

传统LLM推理时，不管当前token需不需要，全量KV Cache都常驻GPU，超长上下文直接把显存干爆。

腾讯AI Lab与港科大全新论文《FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention》，直接把大模型长文本的“显存公敌”给彻底拿捏了！

他们基于DeepSeek-V4 的 FlashMemory-DeepSeek-V4（FM-DS-V4），通过 Lookahead Sparse Attention (LSA)，让超长上下文（甚至500K）推理的KV Cache内存压缩到仅13.5%（平均减少86.5%），极端情况下减超90%，性能还不降反升！

论文观察到：90%+的长上下文请求，其实只靠最近8K就能搞定，但少数任务又真需要全局记忆。滑动窗口会丢全局信息，全载又太浪费。

LSA的解决方案超级聪明：
🔸 保留DeepSeek-V4的重度压缩HCA层（全局粗粒度感知，128:1压缩）。
🔸 对CSA（Compressed Sparse Attention）层升级：每隔τ步（比如64步），用一个Neural Memory Indexer（轻量双编码器）提前预测未来需要哪些关键KV chunk。
🔸 只把query-critical的压缩块从CPU拉到GPU，其余放冷存储。
🔸 Backbone-Free解耦训练：Indexer独立训练，只用1个H20 GPU小时，不用加载巨型主模型！

在 LongBench-v2 等权威长文本测试中，魔改后的 FM-DS-V4 在 500K 极限长文本下，将物理 KV Cache 的平均显存占用暴降了 86.5%。更离谱的是，显存砍掉这么多，模型平均准确率不仅没崩，反而绝对提升了 0.6%！

当然论文也诚实写了局限：对某些极致全局密集检索任务还有提升空间，长度泛化有边界（训练到512K），但开源了代码和模型，潜力巨大！

如果你是大模型落地、AI Infra（工程基础设施）以及长文本应用开发领域的同学，这篇值得看一下~（文件可直接down）

如果你觉得内容有用的话，还请一键三连咔咔咔，非常感谢！

众力资讯网

腾讯港科大魔改DeepSeek长文本，显存降86%

热门分类