ProMMSearchAgent: A Generalizable Multimodal Search Agent Trained with Process-Oriented Rewards

作者: Wentao Yan, Shengqin Wang, Huichi Zhou, Yihang Chen, Kun Shao, Yuan Xie, Zhizhong Zhang

分类: cs.CV

发布日期: 2026-04-22

💡 一句话要点

提出ProMMSearchAgent，通过过程导向奖励训练通用多模态搜索Agent

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态搜索 强化学习 过程导向奖励 Sim-to-Real 知识密集型视觉推理

📋 核心要点

现有基于结果的强化学习方法在训练多模态Agent时面临奖励稀疏性和Web环境不可预测性的挑战。
ProMMSearchAgent通过解耦策略学习和引入内省的过程导向奖励，在静态沙箱环境中进行有效训练。
实验表明，该方法在多个数据集上取得了显著的性能提升，并在真实环境中实现了零样本迁移。

📝 摘要（中文）

本文提出ProMMSearchAgent，旨在解决知识密集型视觉推理中，基于强化学习训练多模态Agent时面临的奖励稀疏性和Web环境不可预测性问题。该方法建立了一种新颖的Sim-to-Real训练范式，用于多模态搜索。策略学习被解耦到一个确定性的、局部静态沙箱环境中。为了在该受限环境中有效学习，论文提出了一种内省的过程导向奖励，通过探测Agent自身的参数知识边界，生成密集的行为元数据，仅当视觉或事实不确定时才启动多模态或文本搜索。实验结果表明，该方法在本地训练的策略能够零样本迁移到真实的Google Search API，并在FVQA-test、InfoSeek和MMSearch数据集上取得了SOTA性能，分别超越MMSearch-R1 +5.1%、+6.3%和+11.3%。

🔬 方法详解

问题定义：现有的多模态Agent在知识密集型视觉推理任务中，依赖于强化学习进行训练，但由于奖励信号的极度稀疏（只有最终结果有奖励）以及真实Web环境的不可预测性，导致训练效率低下且难以泛化。Agent很难探索到正确的行为序列，并且容易受到环境噪声的干扰。

核心思路：论文的核心思路是将策略学习过程解耦到一个确定性的、局部静态沙箱环境中，从而简化探索空间并提高训练的稳定性。同时，引入一种内省的过程导向奖励机制，鼓励Agent在不确定时才进行搜索，从而提高搜索效率和准确性。通过这种Sim-to-Real的训练方式，使Agent能够在模拟环境中学习到有效的策略，并将其迁移到真实的Web环境中。

技术框架：ProMMSearchAgent的整体框架包含以下几个主要模块：1) 静态沙箱环境：用于模拟Web搜索环境，提供确定性的反馈。2) 多模态Agent：负责接收视觉和文本输入，并决定是否进行搜索以及搜索的内容。3) 内省的过程导向奖励模块：根据Agent的行为和知识状态，生成密集的奖励信号，引导Agent学习。4) 策略学习模块：使用强化学习算法，优化Agent的策略。

关键创新：该论文最重要的技术创新点在于提出了内省的过程导向奖励机制。传统的强化学习方法通常只根据最终结果给予奖励，而该方法则通过探测Agent自身的参数知识边界，生成密集的行为元数据，并根据Agent的认知决策（是否进行搜索）给予奖励。这种过程导向的奖励能够更有效地引导Agent学习，并提高训练效率。

关键设计：内省的过程导向奖励的设计是关键。具体来说，奖励函数会根据Agent的视觉和事实不确定性来调整。例如，当Agent对当前视觉信息或已知事实不够确定时，进行搜索会获得更高的奖励。此外，论文可能还涉及到一些网络结构的设计，例如使用Transformer等模型来处理多模态输入，以及使用特定的损失函数来优化策略。

🖼️ 关键图片

📊 实验亮点

ProMMSearchAgent在三个数据集上取得了显著的性能提升。在FVQA-test数据集上，超越MMSearch-R1 5.1%；在InfoSeek数据集上，超越6.3%；在MMSearch数据集上，超越11.3%。这些结果表明，该方法能够有效地提高多模态搜索Agent的性能，并在真实Web环境中实现零样本迁移。

🎯 应用场景

该研究成果可应用于智能问答系统、视觉搜索、信息检索等领域。通过训练能够自主进行多模态搜索的Agent，可以更有效地获取和整合知识，从而提高问题解决能力。该方法在教育、医疗、金融等领域具有广泛的应用前景，例如辅助医生进行诊断、帮助学生查找学习资料等。未来，该技术有望进一步发展，实现更智能、更高效的知识获取和利用。

📄 摘要（原文）

Training multimodal agents via reinforcement learning for knowledge-intensive visual reasoning is fundamentally hindered by the extreme sparsity of outcome-based supervision and the unpredictability of live web environments. To resolve these algorithmic and environmental bottlenecks, we introduce ProMMSearchAgent, establishing a novel Sim-to-Real training paradigm for multimodal search. We decouple policy learning into a deterministic, local static sandbox. Crucially, to learn effectively within this constrained environment, we propose an introspective process-oriented reward. By probing the agent's own parametric knowledge boundaries, we generate dense behavioral metadata that explicitly rewards the correct cognitive decision, initiating a multimodal or text search only when visually or factually uncertain. Extensive experiments demonstrate that our locally-trained policy transfers zero-shot to the live Google Search API. ProMMSearchAgent achieves new SOTA performance, outperforming MMSearch-R1 by +5.1% on FVQA-test, +6.3% on InfoSeek, and +11.3% on MMSearch.

ProMMSearchAgent: A Generalizable Multimodal Search Agent Trained with Process-Oriented Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理