DR-MMSearchAgent: Deepening Reasoning in Multimodal Search Agents

📄 arXiv: 2604.19264v1 📥 PDF

作者: Shengqin Wang, Wentao Yan, Huichi Zhou, Yihang Chen, Kun Shao, Zhizhong Zhang, Yuan Xie

分类: cs.CV

发布日期: 2026-04-21


💡 一句话要点

DR-MMSearchAgent:通过加深推理解决多模态搜索Agent中的交互崩溃问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态搜索Agent 深度推理 交互崩溃 结构邻近性 差异化高斯奖励

📋 核心要点

  1. 多模态Agent常因终端奖励的局限性和冗余上下文而过早发生交互崩溃,限制了其在复杂任务中的表现。
  2. DR-MMSearchAgent通过结构邻近性推导优势信号,并使用差异化高斯奖励动态校准交互容忍度,从而鼓励探索和减少冗余。
  3. 在多步深度推理数据集上的实验表明,DR-MMSearchAgent显著优于现有方法,在FVQA-test上性能提升了8.4%。

📝 摘要(中文)

本文提出了一种名为Deepening Reasoning MMSearchAgent (DR-MMSearchAgent) 的框架,旨在解决多模态Agent在复杂任务中遇到的过早交互崩溃问题。该问题主要源于两方面:一是终端奖励往往附加在最后一个token上,导致优势函数难以区分具有探索行为的轨迹;二是过多的冗余上下文阻碍了Agent吸收有用的反馈。DR-MMSearchAgent利用结构邻近性从整个批次的rollout轨迹中推导出优势信号,鼓励生成不同长度的轨迹,即使包含相同的正确答案。此外,采用差异化高斯奖励来动态校准交互容忍度,确保信息可靠性并减少冗余。为了支持多轮交互训练,构建了一个包含3602个高质量QA对的多步深度推理数据集。实验结果表明,该方法达到了最先进的性能,在FVQA-test上超越了MMSearch-R1 8.4%。

🔬 方法详解

问题定义:多模态搜索Agent在执行复杂任务时,容易出现过早的交互崩溃现象。现有的方法通常依赖于终端奖励,这使得Agent难以区分不同探索行为的轨迹,并且容易受到冗余上下文的干扰,从而阻碍了Agent学习有效的反馈信息。

核心思路:DR-MMSearchAgent的核心思路是通过利用结构邻近性来推导优势信号,从而鼓励Agent进行更充分的探索,并采用差异化高斯奖励来动态调整交互容忍度,以减少冗余信息的影响。这样设计的目的是为了使Agent能够更好地学习到有用的反馈,并避免过早陷入局部最优。

技术框架:DR-MMSearchAgent的整体框架包括以下几个主要模块:首先,Agent与环境进行交互,生成一系列的轨迹。然后,利用结构邻近性从整个批次的轨迹中推导出优势信号,用于指导Agent的学习。同时,采用差异化高斯奖励来动态校准交互容忍度,以确保信息的可靠性并减少冗余。最后,通过优化Agent的策略,使其能够更好地完成任务。

关键创新:DR-MMSearchAgent最重要的技术创新点在于其利用结构邻近性来推导优势信号,并采用差异化高斯奖励来动态校准交互容忍度。与现有方法相比,DR-MMSearchAgent能够更有效地鼓励Agent进行探索,并减少冗余信息的影响,从而提高了Agent的性能。

关键设计:DR-MMSearchAgent的关键设计包括:1) 结构邻近性的具体计算方法,例如可以采用图神经网络来建模轨迹之间的关系;2) 差异化高斯奖励的具体形式,例如可以根据交互的轮数和Agent的置信度来调整高斯分布的参数;3) 策略优化的方法,例如可以采用强化学习算法,如PPO或SAC。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DR-MMSearchAgent在FVQA-test数据集上取得了显著的性能提升,超越了MMSearch-R1基线模型8.4%。这一结果验证了DR-MMSearchAgent的有效性,表明其能够有效地解决多模态Agent中的交互崩溃问题,并提高Agent的推理能力和交互效率。

🎯 应用场景

DR-MMSearchAgent具有广泛的应用前景,例如可以应用于智能问答、视觉导航、机器人控制等领域。通过提高Agent的推理能力和交互效率,可以使其更好地完成各种复杂任务,从而为人们的生活和工作带来便利。此外,该研究还可以促进多模态Agent技术的发展,为未来的研究提供新的思路和方法。

📄 摘要(原文)

Agentic multimodal models have garnered significant attention for their ability to leverage external tools to tackle complex tasks. However, it is observed that such agents often meet premature interaction collapse, caused by two primary reasons: 1) the terminal reward often appending on the last token prevents the advantage from distinguishing trajectories with exploratory behavior; 2) excessively redundant context hinders the agent from absorbing useful feedback. To address these issues, we propose the Deepening Reasoning MMSearchAgent, the framework leverages the structural proximity to derive advantage signals from the whole rollout trajectories in an entire batch, such that trajectories of different lengths are further encouraged to be generated, even when containing the same correct answer. Additionally, differentiated gaussian rewards are employed to dynamically calibrate interaction tolerance, thereby ensuring information reliability and reduce redundancy. To support multi-turn interaction training, we have constructed a multi-step deep-reasoning dataset including 3602 high-quality QA pair with at least 3 reasonning steps. Extensive experiments demonstrate that our method achieves state-of-the-art performance, outperforming the MMSearch-R1 by 8.4$\%$ on FVQA-test.