众力资讯网

搞懂大模型上下文压缩算法

2026-06-01 15:09:16 涛涛博士读书科技

大模型上下文压缩研究2024-2025年活跃，目标是高效处理长上下文。技术包括滑动窗口、KV Cache压缩、RAG、递归摘要、选择性注意力等，旨在减少显存占用和推理延迟，同时保持信息保留。

阅读：0 点赞：0