首个Agentic多模态检索大模型来了！清华让AI边推理边主动看图

近年来，随着多模态大语言模型（MLLM）的快速发展，研究者们开始尝试将其应用于通用多模态检索任务。与此同时，思维链（Chain-of-Thought，CoT）推理被引入检索领域，通过增强模型的推理能力来改善候选结果的排序。

然而，一个重要问题始终未能得到解决：现有的推理过程本质上仍然是语言驱动的，模型无法在推理过程中主动获取和验证视觉细节，因此在面对相似的候选图片时容易“瞎猜”。

近日，清华大学联合、复旦大学、香港大学等机构，推出了首个基于“Interleaved Reasoning”的通用多模态检索框架 V-Retrver。该框架将传统检索重塑为智能体推理过程，让多模态大模型学会在检索时主动调用视觉工具来验证细节，而非仅凭静态的图像表征进行判断。目前，研究团队已将代码和模型权重开源。

（来源：arXiv）

“从 2025 年初开始，推理模型开始火起来，很多工作把推理模型用在下游任务，多模态检索就是其中之一。”团队成员向 DeepTech 表示，“但现在这些推理模型的 CoT 过程是从文本推理的。问题在于，多模态检索的输入是多张图像，你要从十张候选图片中找到最相关的那张，仅靠文本推理会产生幻觉。”

这种局限在视觉模糊的检索场景中尤为明显。尤其当候选图片在语义上高度相似，仅在细节上存在差异时。比如同样是白色沙发，只是抱枕纹理不同，模型往往无法准确区分。传统方法将视觉输入压缩成固定的特征向量或文本描述，迫使推理过程完全依赖语言来推断视觉差异，结果就是模型只能瞎猜。

（来源：论文）

更关键的是，现有模型看图是“一次性”的。用了一个形象的比喻：“传统模型看完图就凭印象做题，面对复杂的图文交错检索，它们无法在推理遇到瓶颈时主动去验证视觉细节。”这种走马观花式的视觉处理方式，导致模型在需要精细判断时表现不佳。

让模型学会“放大找细节”

V-Retrver 的核心理念是将多模态检索重新定义为一个“多模态思维链的推理过程”。与传统的单次推理不同，模型在推理过程中可以主动调用外部视觉工具来获取更多信息，就像人在看不清某个细节时会把图片放大仔细看一样。

团队表示，这是首个将交错推理（Interleaved Reasoning）应用于多模态图像检索的工作。此前的相关研究主要集中在简单的图像理解和视频理解任务上，例如单图问答场景。

论文作者之一以一个具体场景说明了这一过程：“假设输入是一段文字描述，需要从 10 张候选图片中找到最相关的一张。模型在分析过程中，如果发现某张图片的关键细节看不清楚，就会调用工具对该区域进行局部放大后再做判断。比如查询文本提到‘桌上放着某个物品’，而这个物品在图像中位置较小、较模糊，模型就需要放大查看才能做出准确判断。”

这种“边看边想”的过程与人类的认知方式很像，当我们在网购时遇到相似的商品，也会点开大图看买家秀细节来做出对比和判断。

这种“产生疑问→调取工具核实→得出结论”的逻辑闭环，正是 V-Retrver 区别于传统方法的关键所在。

三阶段训练：从“学会用工具”到“聪明地用工具”

让模型学会何时以及如何使用这些视觉工具，并非易事。V-Retrver 采用了三阶段的课程学习策略。

第一阶段是监督微调（SFT），目标是教会模型基本的工具调用能力。“我们使用 LLM 来合成训练数据，这批数据包含了检索过程中调用工具的示例，让模型学会何时以及如何调用工具。”作者表示，这个阶段的数据质量至关重要，也是整个训练过程中最具挑战性的环节之一。

SFT 阶段的训练量需要精心控制。作者指出，这里存在两个极端：训练过度会导致模型在强化学习阶段过度依赖工具，对每个样本都尝试调用；训练不足则会使模型无法掌握工具调用能力。

第二阶段是拒绝采样微调（RSFT），通过筛选高质量的推理轨迹来提升模型的推理可靠性和格式合规性，为后续的强化学习提供稳定的初始化。

第三阶段是证据对齐策略优化（EAPO），这是基于 GRPO 算法的强化学习过程。“我们设计了一个工具调用奖励机制，”作者解释道，“当模型在推理过程中合理调用工具时会获得正向奖励。我们希望模型能够适度使用工具进行验证，而非完全不用或过度依赖。”

（来源：论文）

经过强化学习训练后，模型能够实现自适应的工具调用。有些问题需要调用工具来验证细节，有些则不需要，模型会自主判断。

性能提升显著，泛化能力突出

在通用多模态检索基准 M-BEIR 上，V-Retrver-7B 取得了 69.7% 的平均召回率，相比此前最强的 U-MARVEL-7B 提升了近 5 个百分点，相对基础的 Qwen2.5-VL-7B 模型则提升了 23%。

（来源：论文）

值得注意的是，V-Retrver 在需要精细视觉判断的任务上表现尤为突出。在 FashionIQ 数据集上达到 51.2%，在 CIRR 数据集上达到 73.5%，分别比 U-MARVEL-7B 高出 13 个和 10 个百分点。这验证了多模态交错推理在处理细粒度视觉差异时的有效性。

在零样本泛化测试中，V-Retrver 同样表现优异。在从未见过的 CIRCO 数据集上取得了 48.2 的 MAP@5 成绩，显著超过 MM-Embed-7B 等专业检索模型。

消融实验进一步证实了视觉工具的价值：如果剥夺 V-Retrver 的视觉工具，只让它做纯文本的 CoT 推理，平均性能会从 67.2% 跌至 61.8%。

（来源：论文）

团队在论文中也坦诚地表明了当前工作的局限性。最明显的是推理成本问题：相比传统的 embedding 方法，V-Retrver 需要更多的计算资源和时间。“我们在这个工作中没有专门做权衡，这确实是一个问题，也是后续可以继续研究的方向。”

另一个局限是视觉工具的种类相对有限，目前只有 ZOOM-IN 和 SELECT-IMAGE 两种。研究团队计划在后续工作中引入更多类型的工具，其中包括网络搜索工具。

作者以一个例子说明了引入 web search 工具的潜在价值：假设检索目标是“穿着黄色衣服的拿破仑”，但候选图片中存在其他穿着相似服装且外貌接近的人物，仅凭服装颜色难以区分。此时模型可以通过网络搜索获取拿破仑的其他标志性特征，并将这些信息作为辅助依据，提升检索的准确性。

V-Retrver 的出现，标志着多模态检索研究从“静态编码 + 语言推理”向“动态感知 + 交错推理”的范式转变。它证明了一个朴素而重要的道理：在处理视觉任务时，模型不仅需要“想”，更需要“看”。而且要学会在需要的时候主动去“仔细看”。

参考资料

1.论文链接：https://arxiv.org/abs/2602.06034

2.项目地址：https://github.com/chendy25/V-Retrver

运营/排版：何晨龙

众力资讯网

首个Agentic多模态检索大模型来了！清华让AI边推理边主动看图

热门分类

首个Agentic多模态检索大模型来了！清华让AI边推理边主动看图

猜你喜欢

热门分类