众力资讯网

搞懂大模型上下文压缩算法

大模型上下文压缩研究2024-2025年活跃,目标是高效处理长上下文。技术包括滑动窗口、KV Cache压缩、RAG、递归摘要、选择性注意力等,旨在减少显存占用和推理延迟,同时保持信息保留。