近年来,随着多模态大语言模型(MLLM)的快速发展,研究者们开始尝试将其应用于通用多模态检索任务。与此同时,思维链(Chain-of-Thought,CoT)推理被引入检索领域,通过增强模型的推理能力来改善候选结果的排序。
然而,一个重要问题始终未能得到解决:现有的推理过程本质上仍然是语言驱动的,模型无法在推理过程中主动获取和验证视觉细节,因此在面对相似的候选图片时容易“瞎猜”。
近日,清华大学联合、复旦大学、香港大学等机构,推出了首个基于“Interleaved Reasoning”的通用多模态检索框架 V-Retrver。该框架将传统检索重塑为智能体推理过程,让多模态大模型学会在检索时主动调用视觉工具来验证细节,而非仅凭静态的图像表征进行判断。目前,研究团队已将代码和模型权重开源。
(来源:arXiv)
“从 2025 年初开始,推理模型开始火起来,很多工作把推理模型用在下游任务,多模态检索就是其中之一。”团队成员向 DeepTech 表示,“但现在这些推理模型的 CoT 过程是从文本推理的。问题在于,多模态检索的输入是多张图像,你要从十张候选图片中找到最相关的那张,仅靠文本推理会产生幻觉。”
这种局限在视觉模糊的检索场景中尤为明显。尤其当候选图片在语义上高度相似,仅在细节上存在差异时。比如同样是白色沙发,只是抱枕纹理不同,模型往往无法准确区分。传统方法将视觉输入压缩成固定的特征向量或文本描述,迫使推理过程完全依赖语言来推断视觉差异,结果就是模型只能瞎猜。
(来源:论文)
更关键的是,现有模型看图是“一次性”的。用了一个形象的比喻:“传统模型看完图就凭印象做题,面对复杂的图文交错检索,它们无法在推理遇到瓶颈时主动去验证视觉细节。”这种走马观花式的视觉处理方式,导致模型在需要精细判断时表现不佳。
让模型学会“放大找细节”
V-Retrver 的核心理念是将多模态检索重新定义为一个“多模态思维链的推理过程”。与传统的单次推理不同,模型在推理过程中可以主动调用外部视觉工具来获取更多信息,就像人在看不清某个细节时会把图片放大仔细看一样。
团队表示,这是首个将交错推理(Interleaved Reasoning)应用于多模态图像检索的工作。此前的相关研究主要集中在简单的图像理解和视频理解任务上,例如单图问答场景。
论文作者之一以一个具体场景说明了这一过程:“假设输入是一段文字描述,需要从 10 张候选图片中找到最相关的一张。模型在分析过程中,如果发现某张图片的关键细节看不清楚,就会调用工具对该区域进行局部放大后再做判断。比如查询文本提到‘桌上放着某个物品’,而这个物品在图像中位置较小、较模糊,模型就需要放大查看才能做出准确判断。”
这种“边看边想”的过程与人类的认知方式很像,当我们在网购时遇到相似的商品,也会点开大图看买家秀细节来做出对比和判断。
这种“产生疑问→调取工具核实→得出结论”的逻辑闭环,正是 V-Retrver 区别于传统方法的关键所在。
三阶段训练:从“学会用工具”到“聪明地用工具”
让模型学会何时以及如何使用这些视觉工具,并非易事。V-Retrver 采用了三阶段的课程学习策略。
第一阶段是监督微调(SFT),目标是教会模型基本的工具调用能力。“我们使用 LLM 来合成训练数据,这批数据包含了检索过程中调用工具的示例,让模型学会何时以及如何调用工具。”作者表示,这个阶段的数据质量至关重要,也是整个训练过程中最具挑战性的环节之一。
SFT 阶段的训练量需要精心控制。作者指出,这里存在两个极端:训练过度会导致模型在强化学习阶段过度依赖工具,对每个样本都尝试调用;训练不足则会使模型无法掌握工具调用能力。
第二阶段是拒绝采样微调(RSFT),通过筛选高质量的推理轨迹来提升模型的推理可靠性和格式合规性,为后续的强化学习提供稳定的初始化。
第三阶段是证据对齐策略优化(EAPO),这是基于 GRPO 算法的强化学习过程。“我们设计了一个工具调用奖励机制,”作者解释道,“当模型在推理过程中合理调用工具时会获得正向奖励。我们希望模型能够适度使用工具进行验证,而非完全不用或过度依赖。”
(来源:论文)
经过强化学习训练后,模型能够实现自适应的工具调用。有些问题需要调用工具来验证细节,有些则不需要,模型会自主判断。
性能提升显著,泛化能力突出
在通用多模态检索基准 M-BEIR 上,V-Retrver-7B 取得了 69.7% 的平均召回率,相比此前最强的 U-MARVEL-7B 提升了近 5 个百分点,相对基础的 Qwen2.5-VL-7B 模型则提升了 23%。
(来源:论文)
值得注意的是,V-Retrver 在需要精细视觉判断的任务上表现尤为突出。在 FashionIQ 数据集上达到 51.2%,在 CIRR 数据集上达到 73.5%,分别比 U-MARVEL-7B 高出 13 个和 10 个百分点。这验证了多模态交错推理在处理细粒度视觉差异时的有效性。
在零样本泛化测试中,V-Retrver 同样表现优异。在从未见过的 CIRCO 数据集上取得了 48.2 的 MAP@5 成绩,显著超过 MM-Embed-7B 等专业检索模型。
消融实验进一步证实了视觉工具的价值:如果剥夺 V-Retrver 的视觉工具,只让它做纯文本的 CoT 推理,平均性能会从 67.2% 跌至 61.8%。
(来源:论文)
团队在论文中也坦诚地表明了当前工作的局限性。最明显的是推理成本问题:相比传统的 embedding 方法,V-Retrver 需要更多的计算资源和时间。“我们在这个工作中没有专门做权衡,这确实是一个问题,也是后续可以继续研究的方向。”
另一个局限是视觉工具的种类相对有限,目前只有 ZOOM-IN 和 SELECT-IMAGE 两种。研究团队计划在后续工作中引入更多类型的工具,其中包括网络搜索工具。
作者以一个例子说明了引入 web search 工具的潜在价值:假设检索目标是“穿着黄色衣服的拿破仑”,但候选图片中存在其他穿着相似服装且外貌接近的人物,仅凭服装颜色难以区分。此时模型可以通过网络搜索获取拿破仑的其他标志性特征,并将这些信息作为辅助依据,提升检索的准确性。
V-Retrver 的出现,标志着多模态检索研究从“静态编码 + 语言推理”向“动态感知 + 交错推理”的范式转变。它证明了一个朴素而重要的道理:在处理视觉任务时,模型不仅需要“想”,更需要“看”。而且要学会在需要的时候主动去“仔细看”。
参考资料
1.论文链接:https://arxiv.org/abs/2602.06034
2.项目地址:https://github.com/chendy25/V-Retrver
运营/排版:何晨龙