Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents
作者: Weiting Tan, Xinghua Qu, Ming Tu, Meng Ge, Andy T. Liu, Philipp Koehn, Lu Lu
分类: cs.CL, cs.AI, cs.MA
发布日期: 2025-09-17
💡 一句话要点
提出Turn-level Adjudicated RL,解决交互式多模态工具使用Agent的训练难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 多模态学习 工具使用 交互式Agent 大型语言模型
📋 核心要点
- 现有交互式工具使用Agent在多轮规划和长上下文对话管理方面存在挑战,尤其是在多模态环境中,信用分配困难。
- 提出Turn-level Adjudicated Reinforcement Learning (TARL),利用LLM作为裁判进行turn级别评估,解决长时程任务中的信用分配问题。
- 通过混合任务训练课程和交错语音-文本rollout,在$τ$-bench上任务通过率提升超过6%,并成功微调多模态基础模型。
📝 摘要(中文)
本文提出了一种针对交互式工具使用的过程监督强化学习方法,旨在训练能够进行多轮规划和长上下文对话管理的Agent。为了训练这种动态过程中的Agent,尤其是在多模态环境中,我们引入了一个支持交错语音-文本rollout的强化学习沙盒环境。核心策略是Turn-level Adjudicated Reinforcement Learning (TARL),它利用大型语言模型(LLM)作为裁判,提供turn级别的评估,从而解决长时程任务中的信用分配问题。为了增强探索,我们整合了一个混合任务训练课程,包含数学推理问题。这种统一的方法在基于文本的$τ$-bench上,任务通过率比强大的RL基线提高了6%以上。重要的是,我们证明了该框架适用于微调多模态基础模型以执行Agent任务。通过在交错语音-文本rollout上训练基础多模态LLM,我们赋予了它工具使用能力,为更自然、语音驱动的交互式Agent铺平了道路。
🔬 方法详解
问题定义:论文旨在解决交互式多模态工具使用Agent的训练问题,特别是如何有效地进行多轮规划、管理长上下文对话,并在长时程任务中进行准确的信用分配。现有方法在处理复杂的交互式任务时,难以进行有效的探索和学习,尤其是在多模态输入的情况下。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大推理能力,将其作为裁判,对Agent在每个turn的行为进行评估,从而为强化学习提供更细粒度的奖励信号。这种turn级别的评估能够更准确地反映Agent行为的优劣,从而解决长时程任务中的信用分配问题。
技术框架:整体框架包含一个强化学习Agent、一个交互式环境和一个LLM裁判。Agent与环境进行交互,生成交错的语音-文本rollout。LLM裁判根据Agent在每个turn的行为,给出评估分数作为奖励信号。Agent根据奖励信号更新策略。此外,还引入了混合任务训练课程,包含数学推理问题,以增强Agent的探索能力。
关键创新:最重要的技术创新点在于Turn-level Adjudicated Reinforcement Learning (TARL) 策略,它将LLM作为裁判,为强化学习提供turn级别的评估。与传统的稀疏奖励或最终奖励相比,TARL能够提供更密集的奖励信号,从而加速学习过程并提高性能。
关键设计:关键设计包括LLM裁判的prompt设计,如何有效地利用LLM的知识进行评估。混合任务训练课程的设计,如何选择合适的数学推理问题来增强Agent的推理能力。以及交错语音-文本rollout的生成方式,如何有效地利用多模态信息进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的TARL方法在基于文本的$τ$-bench上,任务通过率比强大的RL基线提高了6%以上。此外,通过在交错语音-文本rollout上训练基础多模态LLM,成功赋予了它工具使用能力,证明了该框架适用于微调多模态基础模型以执行Agent任务。
🎯 应用场景
该研究成果可应用于开发更智能、更自然的语音驱动交互式Agent,例如智能助手、客服机器人等。这些Agent能够理解用户的语音指令,利用各种工具完成复杂任务,并进行多轮对话交互,从而提升用户体验和工作效率。未来,该技术有望在智能家居、自动驾驶、医疗健康等领域发挥重要作用。
📄 摘要(原文)
Effective interactive tool use requires agents to master Tool Integrated Reasoning (TIR): a complex process involving multi-turn planning and long-context dialogue management. To train agents for this dynamic process, particularly in multi-modal contexts, we introduce a sandbox environment for reinforcement learning (RL) that supports interleaved speech-text rollouts. Our core strategy, Turn-level Adjudicated Reinforcement Learning (TARL), addresses the challenge of credit assignment in long-horizon tasks by employing a Large Language Model (LLM) as a judge to provide turn-level evaluation. To enhance exploration, we integrate a mixed-task training curriculum with mathematical reasoning problems. This unified approach boosts the task pass rate on the text-based $τ$-bench by over 6% compared to strong RL baselines. Crucially, we demonstrate our framework's suitability for fine-tuning a multi-modal foundation model for agentic tasks. By training a base multi-modal LLM on interleaved speech-text rollouts, we equip it with tool-use abilities, paving the way for more natural, voice-driven interactive agents.