Reinforcement Learning for Tool-Integrated Interleaved Thinking towards Cross-Domain Generalization

📄 arXiv: 2510.11184v2 📥 PDF

作者: Zhengyu Chen, Jinluan Yang, Teng Xiao, Ruochen Zhou, Luan Zhang, Xiangyu Xi, Xiaowei Shi, Wei Wang, Jinggang Wang

分类: cs.LG, cs.CL

发布日期: 2025-10-13 (更新: 2026-01-07)


💡 一句话要点

提出RITE方法以解决跨领域工具增强强化学习的泛化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 工具增强 跨领域泛化 大型语言模型 自我纠正 动态课程设计 数学推理 优化目标

📋 核心要点

  1. 现有工具增强的强化学习方法在跨领域泛化方面存在显著挑战,尤其是在将技能从特定领域转移到开放任务时表现脆弱。
  2. 本文提出了RITE方法,通过持续的“计划-行动-反思”循环,增强了模型在长时间任务中的推理能力和自我纠正能力。
  3. 实验结果显示,RITE方法在多种推理领域中表现优异,尽管仅在数学任务上训练,仍实现了最先进的性能,展示了强大的泛化能力。

📝 摘要(中文)

近年来,大型语言模型(LLMs)在推理和工具利用方面展现了显著能力。然而,工具增强的强化学习在不同领域的泛化仍然是一个重大挑战。传统方法通常将工具使用视为线性或孤立事件,这在将技能从受限领域(如数学)转移到开放任务时显得脆弱。本文研究了仅在数学问题解决上训练的LLM代理的跨领域泛化。为促进稳健的技能转移,我们提出了强化学习的交错工具执行(RITE),该方法通过持续的“计划-行动-反思”循环,使模型能够基于中间工具输出进行推理并在长时间任务中自我纠正。实验表明,尽管仅在数学任务上训练,我们的方法在多种推理领域中实现了最先进的性能,展现出高效的令牌利用率和强大的泛化能力。

🔬 方法详解

问题定义:本文旨在解决工具增强的强化学习在跨领域泛化中的不足,尤其是从数学领域向开放任务的技能转移困难。现有方法往往将工具使用视为孤立事件,导致在新领域的应用效果不佳。

核心思路:提出的RITE方法通过引入持续的“计划-行动-反思”循环,使模型能够在执行任务时实时调整推理过程,基于中间工具输出进行自我纠正,从而增强了模型的适应性和泛化能力。

技术框架:RITE方法的整体架构包括三个主要模块:计划模块负责生成行动计划,行动模块执行具体操作,反思模块则基于工具输出进行推理调整。此外,采用了Dr. GRPO优化目标以应对奖励稀疏性和高方差问题。

关键创新:RITE方法的核心创新在于其交错的工具执行策略和动态的课程设计,允许模型在长时间任务中保持结构完整性和样本效率。这与传统方法的线性处理方式形成鲜明对比。

关键设计:在损失函数设计上,采用了基于令牌级别的损失聚合和重要性采样技术,以提高训练的稳定性和效率。同时,双组件奖励系统和在线回放过滤机制确保了模型训练的有效性和高效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RITE方法在多个推理领域中达到了最先进的性能,尽管仅在数学任务上训练,仍实现了超过基线模型的显著提升,具体表现为在多个任务上令牌效率高出30%以上,展示了其强大的泛化能力。

🎯 应用场景

该研究的潜在应用领域包括教育、自动化问题解决和智能助手等。在这些领域,能够有效地将数学推理技能转移到其他复杂任务中,将极大提升系统的智能水平和用户体验。未来,该方法可能推动跨领域智能体的开发,使其在多种任务中表现出更强的适应性和灵活性。

📄 摘要(原文)

Recent advances in large language models (LLMs) have demonstrated remarkable capabilities in reasoning and tool utilization. However, the generalization of tool-augmented reinforcement learning (RL) across diverse domains remains a significant challenge. Standard paradigms often treat tool usage as a linear or isolated event, which becomes brittle when transferring skills from restricted domains (e.g., mathematics) to open-ended tasks. In this work, we investigate the cross-domain generalization of an LLM agent trained exclusively on mathematical problem-solving. To facilitate robust skill transfer, we propose a {\textbf{R}einforcement Learning for \textbf{I}nterleaved \textbf{T}ool \textbf{E}xecution (RITE)}. Unlike traditional methods, RITE enforces a continuous ``Plan-Action-Reflection'' cycle, allowing the model to ground its reasoning in intermediate tool outputs and self-correct during long-horizon tasks. To effectively train this complex interleaved policy, we introduce {Dr. GRPO}, a robust optimization objective that utilizes token-level loss aggregation with importance sampling to mitigate reward sparsity and high-variance credit assignment. Furthermore, we employ a dual-component reward system and dynamic curriculum via online rollout filtering to ensure structural integrity and sample efficiency. Extensive experiments reveal that our approach, despite being trained solely on math tasks, achieves state-of-the-art performance across diverse reasoning domains, demonstrating high token efficiency and strong generalization capabilities.