ProMMSearchAgent: A Generalizable Multimodal Search Agent Trained with Process-Oriented Rewards

📄 arXiv: 2604.20486v1 📥 PDF

作者: Wentao Yan, Shengqin Wang, Huichi Zhou, Yihang Chen, Kun Shao, Yuan Xie, Zhizhong Zhang

分类: cs.CV

发布日期: 2026-04-22


💡 一句话要点

提出ProMMSearchAgent,通过过程导向奖励训练通用多模态搜索Agent

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态搜索 强化学习 过程导向奖励 Sim-to-Real 知识密集型视觉推理

📋 核心要点

  1. 现有基于结果的强化学习方法在训练多模态Agent时面临奖励稀疏性和Web环境不可预测性的挑战。
  2. ProMMSearchAgent通过解耦策略学习和引入内省的过程导向奖励,在静态沙箱环境中进行有效训练。
  3. 实验表明,该方法在多个数据集上取得了显著的性能提升,并在真实环境中实现了零样本迁移。

📝 摘要(中文)

本文提出ProMMSearchAgent,旨在解决知识密集型视觉推理中,基于强化学习训练多模态Agent时面临的奖励稀疏性和Web环境不可预测性问题。该方法建立了一种新颖的Sim-to-Real训练范式,用于多模态搜索。策略学习被解耦到一个确定性的、局部静态沙箱环境中。为了在该受限环境中有效学习,论文提出了一种内省的过程导向奖励,通过探测Agent自身的参数知识边界,生成密集的行为元数据,仅当视觉或事实不确定时才启动多模态或文本搜索。实验结果表明,该方法在本地训练的策略能够零样本迁移到真实的Google Search API,并在FVQA-test、InfoSeek和MMSearch数据集上取得了SOTA性能,分别超越MMSearch-R1 +5.1%、+6.3%和+11.3%。

🔬 方法详解

问题定义:现有的多模态Agent在知识密集型视觉推理任务中,依赖于强化学习进行训练,但由于奖励信号的极度稀疏(只有最终结果有奖励)以及真实Web环境的不可预测性,导致训练效率低下且难以泛化。Agent很难探索到正确的行为序列,并且容易受到环境噪声的干扰。

核心思路:论文的核心思路是将策略学习过程解耦到一个确定性的、局部静态沙箱环境中,从而简化探索空间并提高训练的稳定性。同时,引入一种内省的过程导向奖励机制,鼓励Agent在不确定时才进行搜索,从而提高搜索效率和准确性。通过这种Sim-to-Real的训练方式,使Agent能够在模拟环境中学习到有效的策略,并将其迁移到真实的Web环境中。

技术框架:ProMMSearchAgent的整体框架包含以下几个主要模块:1) 静态沙箱环境:用于模拟Web搜索环境,提供确定性的反馈。2) 多模态Agent:负责接收视觉和文本输入,并决定是否进行搜索以及搜索的内容。3) 内省的过程导向奖励模块:根据Agent的行为和知识状态,生成密集的奖励信号,引导Agent学习。4) 策略学习模块:使用强化学习算法,优化Agent的策略。

关键创新:该论文最重要的技术创新点在于提出了内省的过程导向奖励机制。传统的强化学习方法通常只根据最终结果给予奖励,而该方法则通过探测Agent自身的参数知识边界,生成密集的行为元数据,并根据Agent的认知决策(是否进行搜索)给予奖励。这种过程导向的奖励能够更有效地引导Agent学习,并提高训练效率。

关键设计:内省的过程导向奖励的设计是关键。具体来说,奖励函数会根据Agent的视觉和事实不确定性来调整。例如,当Agent对当前视觉信息或已知事实不够确定时,进行搜索会获得更高的奖励。此外,论文可能还涉及到一些网络结构的设计,例如使用Transformer等模型来处理多模态输入,以及使用特定的损失函数来优化策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProMMSearchAgent在三个数据集上取得了显著的性能提升。在FVQA-test数据集上,超越MMSearch-R1 5.1%;在InfoSeek数据集上,超越6.3%;在MMSearch数据集上,超越11.3%。这些结果表明,该方法能够有效地提高多模态搜索Agent的性能,并在真实Web环境中实现零样本迁移。

🎯 应用场景

该研究成果可应用于智能问答系统、视觉搜索、信息检索等领域。通过训练能够自主进行多模态搜索的Agent,可以更有效地获取和整合知识,从而提高问题解决能力。该方法在教育、医疗、金融等领域具有广泛的应用前景,例如辅助医生进行诊断、帮助学生查找学习资料等。未来,该技术有望进一步发展,实现更智能、更高效的知识获取和利用。

📄 摘要(原文)

Training multimodal agents via reinforcement learning for knowledge-intensive visual reasoning is fundamentally hindered by the extreme sparsity of outcome-based supervision and the unpredictability of live web environments. To resolve these algorithmic and environmental bottlenecks, we introduce ProMMSearchAgent, establishing a novel Sim-to-Real training paradigm for multimodal search. We decouple policy learning into a deterministic, local static sandbox. Crucially, to learn effectively within this constrained environment, we propose an introspective process-oriented reward. By probing the agent's own parametric knowledge boundaries, we generate dense behavioral metadata that explicitly rewards the correct cognitive decision, initiating a multimodal or text search only when visually or factually uncertain. Extensive experiments demonstrate that our locally-trained policy transfers zero-shot to the live Google Search API. ProMMSearchAgent achieves new SOTA performance, outperforming MMSearch-R1 by +5.1% on FVQA-test, +6.3% on InfoSeek, and +11.3% on MMSearch.