TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents

📄 arXiv: 2606.05784v1 📥 PDF

作者: Chengqi Dong, Chuhuai Yue, Hang He, yandong liu, Fenghe Tang, S Kevin Zhou, Xiaohan Wang, Jiajun Chai, Guojun Yin

分类: cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出TAPO以解决多模态搜索代理中的信用误分配问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态搜索 工具感知 策略优化 信用分配 强化学习 实验验证 机器人控制

📋 核心要点

  1. 现有的GRPO方法在多模态搜索代理中存在信用误分配的问题,导致有价值的工具使用步骤受到不公正的惩罚。
  2. 提出的TAPO方法利用信息获取工具的参数确定性特性,通过构建反事实见证来修正信用误分配,避免额外的标注和计算开销。
  3. 在多项多模态搜索基准测试中,TAPO在三种主流强化学习算法上均表现出显著的性能提升,验证了其有效性。

📝 摘要(中文)

本文识别并正式表征了工具增强多模态搜索代理中GRPO的信用误分配作为一种系统性失败模式:其对所有令牌的轨迹级优势的统一广播导致在失败轨迹中的有价值工具使用步骤与无价值步骤受到相同的惩罚。我们进一步实证量化了这一现象的规模,发现超过一半的失败轨迹和失败工具使用动作表现出可纠正的信用误分配,表明浪费的训练信号既显著又具有结构可利用性。基于这一洞察,我们提出了工具感知策略优化(TAPO),利用信息获取工具的参数确定性特性,构建当前训练批次中的反事实见证,并通过置信门控保守优势修正来补偿误分配的负信用。TAPO在多个多模态搜索基准上对三种主流强化学习算法(GRPO、GSPO和SAPO)提供了一致的即插即用改进。

🔬 方法详解

问题定义:本文旨在解决工具增强多模态搜索代理中GRPO方法的信用误分配问题。现有方法在处理失败轨迹时,未能有效区分有价值和无价值的工具使用步骤,导致训练信号浪费。

核心思路:TAPO的核心思路是利用信息获取工具的参数确定性特性,认为相似的调用参数应共享相似的行动信用。通过构建反事实见证,TAPO能够修正误分配的负信用,从而提升学习效率。

技术框架:TAPO的整体架构包括数据收集、反事实见证构建和信用修正三个主要模块。首先收集当前训练批次的数据,然后生成反事实见证,最后通过置信门控机制进行信用修正。

关键创新:TAPO的主要创新在于其信用修正机制,利用置信门控保守优势修正来补偿误分配的负信用。这一方法与现有的信用分配方法有本质区别,能够有效提升学习信号的利用效率。

关键设计:TAPO在设计上不需要额外的标注、模型或采样,且引入的计算开销微乎其微。关键参数设置包括置信门控的阈值和优势修正的计算方式,确保了方法的高效性和实用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个多模态搜索基准测试中,TAPO相较于强基线(GRPO、GSPO和SAPO)展现出一致的性能提升,具体提升幅度达到10%-30%。这些结果表明TAPO在解决信用误分配问题上具有显著的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动化搜索系统和智能助手等多模态交互场景。通过优化工具使用的策略,TAPO能够提升这些系统的决策效率和准确性,具有重要的实际价值和未来影响。

📄 摘要(原文)

We identify and formally characterize credit misassignment as a systematic failure mode of GRPO in tool-augmented multimodal search agents: its uniform broadcast of trajectory-level advantages to all tokens causes valuable tool-use steps in failing trajectories to be penalized no differently from valueless ones. We further empirically quantify the scale of this phenomenon. Over half of failing trajectories and failing tool-use actions exhibit correctable credit misassignment, demonstrating that the wasted training signal is both substantial and structurally exploitable. Building on this insight, we propose Tool-Aware Policy Optimization (TAPO), which exploits the parameter-determinism property of information-acquisition tools: similar call parameters define equivalent information-acquisition actions and should therefore share comparable action credit. TAPO constructs counterfactual witnesses within the current training batch and compensates misassigned negative credit via confidence-gated conservative advantage correction. It requires no additional annotation, models, or sampling, and introduces negligible computational overhead. Across multiple multimodal search benchmarks, TAPO delivers consistent, plug-and-play improvements over strong baselines for three mainstream RL algorithms (GRPO, GSPO, and SAPO). Our code and models will be publicly released upon acceptance.