[CV] Explain Before You Answer: A Survey on Compositional Visual Reasoning
视觉推理正经历范式转变,组合式视觉推理(CVR)成为突破口,旨在模拟人类分解视觉场景、多步逻辑推理的能力,克服单体模型的局限。
• 认知契合:CVR模仿人类将复杂视觉任务拆解为可解释的子步骤,实现符号化操作与关系推理,支持快速概念形成与高效学习。
• 语义与关系理解:通过显式构建场景图和符号推理,捕捉空间、属性及对象间关系,提升抽象场景理解和跨模态语义桥接能力。
• 泛化与稳健性:CVR具备系统化泛化能力,能组合熟悉元素应对新颖任务,减少对数据偏见依赖,增强跨域适应力。
• 透明与模块复用:生成中间推理结果(如边界框、场景图),提高可解释性,模块化设计支持任务间组件共享和快速迭代。
• 降低偏见与幻觉:通过视觉证据的逐步落地抑制语言偏见和幻觉,提升推理的事实性与稳健性。
• 数据与效率优势:模块化复用减少数据需求,支持少样本学习及高效推理,降低训练和部署成本。
CVR经历五大阶段演进:
1. 语言中心提示增强:LLM分解任务,VLM辅助感知,推理在语言空间完成,灵活但视觉依赖有限。
2. 工具增强LLM:LLM调用外部视觉工具实现多轮推理,提升灵活性但受限于文本描述的准确性。
3. 工具增强VLM:VLM直接感知视觉输入,结合工具实现动态视觉操作与反馈,强化视觉推理能力。
4. 思维链推理VLM:端到端集成感知与推理,显式生成多步推理过程,中间步骤可视化,提升解释力。
5. 统一智能体VLM:模型具备自主规划、视觉探索与想象能力,迭代推理应对复杂场景,实现更接近人类的视觉理解。
评测体系涵盖从常规视觉问答、关系场景图推理、合成诊断测试到知识推理、文本文档理解及细粒度高分辨率感知,多维度考察模型推理准确性、可解释性及效率。
未来挑战包括LLM推理局限、幻觉风险、演绎推理偏向、数据稀缺与扩展性、工具整合瓶颈及基准测试不足。前沿方向聚焦内建世界模型、多样化推理策略、端到端监督、动态工具协同及更精细化评测。
这份涵盖260+顶会论文的综述,系统梳理了CVR的定义、优势、发展阶段、评测机制与瓶颈,绘制了未来研究蓝图,为打造可解释、高效且人类对齐的视觉智能奠定基础。
详情参见🔗arxiv.org/abs/2508.17298
视觉推理组合式推理多模态AI大模型人工智能