Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
作者: Minki Kang, Shizhe Diao, Ryo Hachiuma, Sung Ju Hwang, Pavlo Molchanov, Yu-Chiang Frank Wang, Byung-Kwan Lee
分类: cs.CL
发布日期: 2026-05-27
备注: Project page: https://byungkwanlee.github.io/AXPO-page/
💡 一句话要点
提出AXPO,通过探索性策略优化解决多模态Agent推理中的Thinking-Acting Gap问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态Agent推理 强化学习 策略优化 工具使用 探索性学习
📋 核心要点
- 现有Agent推理方法在处理需要外部工具的复杂问题时,存在思考和行动之间的不对称性,导致工具使用效率低下。
- AXPO通过固定错误的思考前缀并重新采样工具调用,结合不确定性选择,来探索更有效的工具使用策略。
- 实验结果表明,AXPO在多个多模态基准测试中显著优于现有方法,并在较小模型规模下超越了更大模型。
📝 摘要(中文)
本文针对多模态Agent推理中存在的“Thinking-Acting Gap”问题,即Agent在思考(内部推理)和使用工具(外部行动)之间存在结构性不对称。在标准强化学习方法(如GRPO)下,这种不对称导致工具使用率低(约30%),且工具使用错误的rollout比例高(约40%),抑制了学习信号。为此,本文提出了Agent eXplorative Policy Optimization (AXPO) 方法。AXPO针对所有工具使用错误的子组,固定思考前缀,并重新采样工具调用及其后续动作,同时结合基于不确定性的前缀选择。在九个多模态基准测试和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO优于SFT+GRPO(平均Pass@1提升1.8pp,Pass@4提升1.8pp,在8B规模上)。在Pass@4指标上,8B规模的SFT+AXPO超越了32B的基础模型,参数量减少了4倍。
🔬 方法详解
问题定义:论文旨在解决多模态Agent推理中,Agent在思考(内部推理)和使用工具(外部行动)之间存在的“Thinking-Acting Gap”问题。现有方法,如基于策略梯度的强化学习(GRPO),在训练过程中存在工具使用率低和工具使用错误率高的现象,导致学习信号不足,影响Agent的推理能力。
核心思路:AXPO的核心思路是通过探索性策略优化,更有效地利用工具使用错误的样本。具体来说,当Agent在工具使用上出现错误时,不是简单地忽略这些样本,而是固定Agent的思考前缀(即Agent在调用工具之前的推理过程),然后重新采样工具调用及其后续动作,从而探索不同的工具使用方式。
技术框架:AXPO方法主要包含以下几个步骤:1) 使用Supervised Fine-Tuning (SFT) 初始化Agent;2) 使用GRPO进行初步训练;3) 识别所有工具使用错误的子组;4) 对于每个错误的子组,固定思考前缀,并重新采样工具调用及其后续动作;5) 使用重新采样的数据更新Agent的策略。此外,AXPO还引入了基于不确定性的前缀选择机制,以选择更可靠的思考前缀。
关键创新:AXPO的关键创新在于其探索性策略优化方法,它能够有效地利用工具使用错误的样本,从而提高Agent的工具使用效率和推理能力。与传统的策略梯度方法不同,AXPO不是简单地惩罚错误的工具使用行为,而是通过重新采样来探索更优的工具使用策略。
关键设计:AXPO的关键设计包括:1) 思考前缀的固定,确保Agent的推理过程不受干扰;2) 工具调用及其后续动作的重新采样,探索不同的工具使用方式;3) 基于不确定性的前缀选择,选择更可靠的思考前缀。具体的不确定性度量方法和采样策略在论文中未详细说明,属于未知信息。
📊 实验亮点
实验结果表明,在九个多模态基准测试中,SFT+AXPO优于SFT+GRPO,平均Pass@1提升1.8pp,Pass@4提升1.8pp(在8B规模上)。更重要的是,8B规模的SFT+AXPO在Pass@4指标上超越了32B的基础模型,参数量减少了4倍,表明AXPO具有很高的效率和潜力。
🎯 应用场景
该研究成果可应用于需要Agent与外部环境交互的各种场景,例如智能助手、机器人控制、自动化决策等。通过提高Agent的工具使用效率和推理能力,可以实现更智能、更高效的自动化任务处理,具有广泛的应用前景和实际价值。
📄 摘要(原文)
Vision-language models with extended reasoning succeed on complex problems, but many real-world problems require external tools that internal reasoning alone often cannot resolve. Agentic reasoning therefore interleaves two behaviors with a structural asymmetry: thinking (the self-contained default) and tool use (a high-variance auxiliary acting). We refer to this asymmetry as the Thinking-Acting Gap. Under standard RL recipes like GRPO, the gap manifests as two diagnostic symptoms during training: tool use is attempted on only ~30% of rollouts, and when attempted, the tool-using rollouts within a group are all-wrong on ~40% of questions, suppressing the learning signal at the tool calls that needed it. We propose AXPO (Agent eXplorative Policy Optimization): for each all-wrong tool-using subgroup, AXPO fixes the thinking prefix and resamples the tool call and its continuation, paired with uncertainty-based prefix selection. Across nine multimodal benchmarks and three scales of Qwen3-VL-Thinking, SFT+AXPO outperforms SFT+GRPO at average (+1.8pp Pass@1 and +1.8pp Pass@4 at 8B on average) and 8B with SFT+AXPO surpasses the 32B Base on Pass@4 with 4 times fewer parameters.