E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning
作者: Weiyang Guo, Zesheng Shi, Liye Zhao, Jiayuan Ma, Zeen Zhu, Junxian He, Min Zhang, Jing Li
分类: cs.AI
发布日期: 2026-04-10
备注: 22 pages 10 figures, published in acl2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出E3-TIR,通过增强经验利用解决工具集成推理中的训练难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工具集成推理 强化学习 预训练 经验利用 分支探索
📋 核心要点
- 现有工具集成推理训练方法存在探索效率低、数据成本高和能力停滞等问题。
- E3-TIR通过动态集成专家前缀、专家引导和自我探索三种经验,平衡探索与效率。
- 实验表明,E3-TIR在工具使用任务上性能提升6%,数据需求降低90%,ROI提升1.46倍。
📝 摘要(中文)
大型语言模型(LLMs)在工具集成推理(TIR)方面展现出巨大潜力,但现有训练范式面临重大限制:Zero-RL由于缺乏先验指导而导致探索效率低下和模式退化,而SFT-then-RL则受到高数据成本和低熵崩溃导致的能力停滞的限制。为了解决这些挑战,我们提出了E3-TIR(增强经验利用),一种针对Agent训练早期阶段的预热范式。具体来说,我们将训练构建为三种经验类型的动态集成:专家前缀、专家引导和自我探索。通过围绕专家“锚点”执行多样化的分支探索,并采用混合策略优化机制,我们有效地缓解了由共享前缀引起的分布偏移和优化冲突。我们的方法动态地调整模型的知识边界,有效地平衡了探索多样性与训练效率。实验结果表明,E3-TIR在工具使用任务上比传统范式提高了6个百分点的性能,同时所需合成数据量减少了90%。此外,在综合性能、数据成本和训练效率的ROI指标方面,我们实现了比基线高1.46倍的收益。
🔬 方法详解
问题定义:现有工具集成推理(TIR)的训练方法,如Zero-RL和SFT-then-RL,存在探索效率低、数据成本高以及能力达到瓶颈等问题。Zero-RL缺乏先验知识引导,导致探索效率低下和模式崩塌;SFT-then-RL虽然利用了监督学习,但数据成本高昂,且容易陷入低熵状态,限制了模型的能力提升。
核心思路:E3-TIR的核心思路是通过动态集成三种不同类型的经验:专家前缀(Expert Prefixes)、专家引导(Expert Guided)和自我探索(Self-Exploration),来解决现有方法的不足。这种集成方式旨在利用专家知识作为“锚点”进行高效探索,同时鼓励模型在专家知识周围进行多样化的分支探索,从而避免陷入局部最优解。
技术框架:E3-TIR的整体框架包含三个主要阶段,对应于三种经验类型:1) 专家前缀:利用专家提供的工具使用轨迹作为模型的初始知识,快速引导模型进入正确的工具使用方向。2) 专家引导:在专家轨迹的引导下,模型进行分支探索,学习不同的工具使用策略。3) 自我探索:模型在没有专家指导的情况下,自主探索工具的使用方式,进一步提升模型的泛化能力。这三个阶段通过混合策略优化机制进行动态调整,以平衡探索的多样性和训练的效率。
关键创新:E3-TIR的关键创新在于其动态集成三种经验类型的训练范式。与传统的单一训练方法相比,E3-TIR能够更有效地利用有限的数据,并避免模型陷入局部最优解。通过围绕专家“锚点”进行分支探索,E3-TIR能够更好地平衡探索的多样性和训练的效率,从而提升模型在工具集成推理任务上的性能。
关键设计:E3-TIR的关键设计包括:1) 混合策略优化机制:用于动态调整三种经验类型的权重,以平衡探索的多样性和训练的效率。2) 分支探索策略:在专家轨迹的引导下,模型进行多样化的分支探索,学习不同的工具使用策略。3) 损失函数设计:针对不同的经验类型,设计不同的损失函数,以更好地引导模型的学习。
🖼️ 关键图片
📊 实验亮点
E3-TIR在工具使用任务上取得了显著的性能提升,相比传统范式提高了6个百分点。更重要的是,E3-TIR仅需传统方法10%的合成数据量,大幅降低了数据成本。在综合考虑性能、数据成本和训练效率的ROI指标上,E3-TIR实现了比基线高1.46倍的收益,证明了其高效性和实用性。
🎯 应用场景
E3-TIR技术可应用于各种需要工具集成推理的场景,如智能助手、自动化流程设计、代码生成等。通过提升模型在工具使用方面的能力,可以实现更智能、更高效的自动化解决方案,降低人工干预的需求,提高生产效率。未来,该技术有望在工业自动化、医疗诊断等领域发挥重要作用。
📄 摘要(原文)
While Large Language Models (LLMs) have demonstrated significant potential in Tool-Integrated Reasoning (TIR), existing training paradigms face significant limitations: Zero-RL suffers from inefficient exploration and mode degradation due to a lack of prior guidance, while SFT-then-RL is limited by high data costs and capability plateaus caused by low-entropy collapse. To address these challenges, we propose E3-TIR (Enhanced Experience Exploitation), a warm-up paradigm for the early stages of agent training. Specifically, we formulate training as the dynamic integration of three experience types: Expert Prefixes, Expert Guided, and Self-Exploration. By executing diverse branching exploration around expert "anchors" and employing a mix policy optimization mechanism, we effectively mitigate distribution shifts and resolve optimization conflicts arising from shared prefixes. Our method dynamically adapts the model's knowledge boundaries, effectively balancing exploration diversity with training efficiency.Experimental results demonstrate that E3-TIR achieves a 6 performance improvement over traditional paradigms on tool-use tasks, while requiring less than 10 of the synthetic data. Furthermore, in terms of ROI, a comprehensive metric integrating performance, data cost, and training efficiency we achieve a 1.46x gain compared to baselines. Code is available at https://github.com/yuki-younai/E3-TIR.