Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents

作者: Weiting Tan, Xinghua Qu, Ming Tu, Meng Ge, Andy T. Liu, Philipp Koehn, Lu Lu

分类: cs.CL, cs.AI, cs.MA

发布日期: 2025-09-17

💡 一句话要点

提出Turn-level Adjudicated RL，解决交互式多模态工具使用Agent的训练难题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多模态学习 工具使用 交互式Agent 大型语言模型

📋 核心要点

现有交互式工具使用Agent在多轮规划和长上下文对话管理方面存在挑战，尤其是在多模态环境中，信用分配困难。
提出Turn-level Adjudicated Reinforcement Learning (TARL)，利用LLM作为裁判进行turn级别评估，解决长时程任务中的信用分配问题。
通过混合任务训练课程和交错语音-文本rollout，在$τ$-bench上任务通过率提升超过6%，并成功微调多模态基础模型。

📝 摘要（中文）

本文提出了一种针对交互式工具使用的过程监督强化学习方法，旨在训练能够进行多轮规划和长上下文对话管理的Agent。为了训练这种动态过程中的Agent，尤其是在多模态环境中，我们引入了一个支持交错语音-文本rollout的强化学习沙盒环境。核心策略是Turn-level Adjudicated Reinforcement Learning (TARL)，它利用大型语言模型（LLM）作为裁判，提供turn级别的评估，从而解决长时程任务中的信用分配问题。为了增强探索，我们整合了一个混合任务训练课程，包含数学推理问题。这种统一的方法在基于文本的$τ$-bench上，任务通过率比强大的RL基线提高了6%以上。重要的是，我们证明了该框架适用于微调多模态基础模型以执行Agent任务。通过在交错语音-文本rollout上训练基础多模态LLM，我们赋予了它工具使用能力，为更自然、语音驱动的交互式Agent铺平了道路。

🔬 方法详解

问题定义：论文旨在解决交互式多模态工具使用Agent的训练问题，特别是如何有效地进行多轮规划、管理长上下文对话，并在长时程任务中进行准确的信用分配。现有方法在处理复杂的交互式任务时，难以进行有效的探索和学习，尤其是在多模态输入的情况下。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大推理能力，将其作为裁判，对Agent在每个turn的行为进行评估，从而为强化学习提供更细粒度的奖励信号。这种turn级别的评估能够更准确地反映Agent行为的优劣，从而解决长时程任务中的信用分配问题。

技术框架：整体框架包含一个强化学习Agent、一个交互式环境和一个LLM裁判。Agent与环境进行交互，生成交错的语音-文本rollout。LLM裁判根据Agent在每个turn的行为，给出评估分数作为奖励信号。Agent根据奖励信号更新策略。此外，还引入了混合任务训练课程，包含数学推理问题，以增强Agent的探索能力。

关键创新：最重要的技术创新点在于Turn-level Adjudicated Reinforcement Learning (TARL) 策略，它将LLM作为裁判，为强化学习提供turn级别的评估。与传统的稀疏奖励或最终奖励相比，TARL能够提供更密集的奖励信号，从而加速学习过程并提高性能。

关键设计：关键设计包括LLM裁判的prompt设计，如何有效地利用LLM的知识进行评估。混合任务训练课程的设计，如何选择合适的数学推理问题来增强Agent的推理能力。以及交错语音-文本rollout的生成方式，如何有效地利用多模态信息进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的TARL方法在基于文本的$τ$-bench上，任务通过率比强大的RL基线提高了6%以上。此外，通过在交错语音-文本rollout上训练基础多模态LLM，成功赋予了它工具使用能力，证明了该框架适用于微调多模态基础模型以执行Agent任务。

🎯 应用场景

该研究成果可应用于开发更智能、更自然的语音驱动交互式Agent，例如智能助手、客服机器人等。这些Agent能够理解用户的语音指令，利用各种工具完成复杂任务，并进行多轮对话交互，从而提升用户体验和工作效率。未来，该技术有望在智能家居、自动驾驶、医疗健康等领域发挥重要作用。

📄 摘要（原文）

Effective interactive tool use requires agents to master Tool Integrated Reasoning (TIR): a complex process involving multi-turn planning and long-context dialogue management. To train agents for this dynamic process, particularly in multi-modal contexts, we introduce a sandbox environment for reinforcement learning (RL) that supports interleaved speech-text rollouts. Our core strategy, Turn-level Adjudicated Reinforcement Learning (TARL), addresses the challenge of credit assignment in long-horizon tasks by employing a Large Language Model (LLM) as a judge to provide turn-level evaluation. To enhance exploration, we integrate a mixed-task training curriculum with mathematical reasoning problems. This unified approach boosts the task pass rate on the text-based $τ$-bench by over 6% compared to strong RL baselines. Crucially, we demonstrate our framework's suitability for fine-tuning a multi-modal foundation model for agentic tasks. By training a base multi-modal LLM on interleaved speech-text rollouts, we equip it with tool-use abilities, paving the way for more natural, voice-driven interactive agents.

Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理