Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

作者: Minki Kang, Shizhe Diao, Ryo Hachiuma, Sung Ju Hwang, Pavlo Molchanov, Yu-Chiang Frank Wang, Byung-Kwan Lee

分类: cs.CL

发布日期: 2026-05-27

备注: Project page: https://byungkwanlee.github.io/AXPO-page/

💡 一句话要点

提出AXPO，通过探索性策略优化解决多模态Agent推理中的Thinking-Acting Gap问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent推理 强化学习 策略优化 工具使用 探索性学习

📋 核心要点

现有Agent推理方法在处理需要外部工具的复杂问题时，存在思考和行动之间的不对称性，导致工具使用效率低下。
AXPO通过固定错误的思考前缀并重新采样工具调用，结合不确定性选择，来探索更有效的工具使用策略。
实验结果表明，AXPO在多个多模态基准测试中显著优于现有方法，并在较小模型规模下超越了更大模型。

📝 摘要（中文）

本文针对多模态Agent推理中存在的“Thinking-Acting Gap”问题，即Agent在思考（内部推理）和使用工具（外部行动）之间存在结构性不对称。在标准强化学习方法（如GRPO）下，这种不对称导致工具使用率低（约30%），且工具使用错误的rollout比例高（约40%），抑制了学习信号。为此，本文提出了Agent eXplorative Policy Optimization (AXPO) 方法。AXPO针对所有工具使用错误的子组，固定思考前缀，并重新采样工具调用及其后续动作，同时结合基于不确定性的前缀选择。在九个多模态基准测试和三种规模的Qwen3-VL-Thinking模型上，SFT+AXPO优于SFT+GRPO（平均Pass@1提升1.8pp，Pass@4提升1.8pp，在8B规模上）。在Pass@4指标上，8B规模的SFT+AXPO超越了32B的基础模型，参数量减少了4倍。

🔬 方法详解

问题定义：论文旨在解决多模态Agent推理中，Agent在思考（内部推理）和使用工具（外部行动）之间存在的“Thinking-Acting Gap”问题。现有方法，如基于策略梯度的强化学习（GRPO），在训练过程中存在工具使用率低和工具使用错误率高的现象，导致学习信号不足，影响Agent的推理能力。

核心思路：AXPO的核心思路是通过探索性策略优化，更有效地利用工具使用错误的样本。具体来说，当Agent在工具使用上出现错误时，不是简单地忽略这些样本，而是固定Agent的思考前缀（即Agent在调用工具之前的推理过程），然后重新采样工具调用及其后续动作，从而探索不同的工具使用方式。

技术框架：AXPO方法主要包含以下几个步骤：1) 使用Supervised Fine-Tuning (SFT) 初始化Agent；2) 使用GRPO进行初步训练；3) 识别所有工具使用错误的子组；4) 对于每个错误的子组，固定思考前缀，并重新采样工具调用及其后续动作；5) 使用重新采样的数据更新Agent的策略。此外，AXPO还引入了基于不确定性的前缀选择机制，以选择更可靠的思考前缀。

关键创新：AXPO的关键创新在于其探索性策略优化方法，它能够有效地利用工具使用错误的样本，从而提高Agent的工具使用效率和推理能力。与传统的策略梯度方法不同，AXPO不是简单地惩罚错误的工具使用行为，而是通过重新采样来探索更优的工具使用策略。

关键设计：AXPO的关键设计包括：1) 思考前缀的固定，确保Agent的推理过程不受干扰；2) 工具调用及其后续动作的重新采样，探索不同的工具使用方式；3) 基于不确定性的前缀选择，选择更可靠的思考前缀。具体的不确定性度量方法和采样策略在论文中未详细说明，属于未知信息。

📊 实验亮点

实验结果表明，在九个多模态基准测试中，SFT+AXPO优于SFT+GRPO，平均Pass@1提升1.8pp，Pass@4提升1.8pp（在8B规模上）。更重要的是，8B规模的SFT+AXPO在Pass@4指标上超越了32B的基础模型，参数量减少了4倍，表明AXPO具有很高的效率和潜力。

🎯 应用场景

该研究成果可应用于需要Agent与外部环境交互的各种场景，例如智能助手、机器人控制、自动化决策等。通过提高Agent的工具使用效率和推理能力，可以实现更智能、更高效的自动化任务处理，具有广泛的应用前景和实际价值。

📄 摘要（原文）

Vision-language models with extended reasoning succeed on complex problems, but many real-world problems require external tools that internal reasoning alone often cannot resolve. Agentic reasoning therefore interleaves two behaviors with a structural asymmetry: thinking (the self-contained default) and tool use (a high-variance auxiliary acting). We refer to this asymmetry as the Thinking-Acting Gap. Under standard RL recipes like GRPO, the gap manifests as two diagnostic symptoms during training: tool use is attempted on only ~30% of rollouts, and when attempted, the tool-using rollouts within a group are all-wrong on ~40% of questions, suppressing the learning signal at the tool calls that needed it. We propose AXPO (Agent eXplorative Policy Optimization): for each all-wrong tool-using subgroup, AXPO fixes the thinking prefix and resamples the tool call and its continuation, paired with uncertainty-based prefix selection. Across nine multimodal benchmarks and three scales of Qwen3-VL-Thinking, SFT+AXPO outperforms SFT+GRPO at average (+1.8pp Pass@1 and +1.8pp Pass@4 at 8B on average) and 8B with SFT+AXPO surpasses the 32B Base on Pass@4 with 4 times fewer parameters.

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理