Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

📄 arXiv: 2602.01983v1 📥 PDF

作者: Xintian Shen, Jiawei Chen, Lihao Zheng, Hao Ma, Tao Wei, Kun Zhan

分类: cs.AI

发布日期: 2026-02-02


💡 一句话要点

提出UCT框架,通过免训练经验复用,使多模态推理Agent从工具使用者进化为创造者

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具集成推理 多模态推理 经验复用 免训练学习 自适应工具创建

📋 核心要点

  1. 现有工具集成推理模型依赖固定工具,难以应对开放性问题,且缺乏自优化能力,易受错误工具输出误导。
  2. UCT框架通过收集和提炼推理经验,使Agent具备自适应工具创建和自我更新能力,无需额外训练。
  3. 实验结果表明,UCT在多领域数学和科学推理任务上取得了显著的性能提升,验证了Agent的自我进化能力。

📝 摘要(中文)

现有的工具集成推理(TIR)模型通过整合外部工具,有效扩展了LLM的问答能力。然而,现实场景中存在大量开放性问题,固定工具往往无法满足任务需求。此外,缺乏自优化机制意味着错误的工具输出会误导LLM的响应。而且,现有工具的构建需要大量的人工,限制了其适用性。本文提出UCT,一种新颖的免训练框架,将Agent从工具使用者转变为工具创造者。该方法收集推理经验并将其提炼成可重用的资产,从而实现推理过程中自适应的工具创建和自我更新。同时,引入记忆巩固机制来维护工具库,确保保留的经验记忆对后续推理任务具有高可重用性。这种新型的自动化工具构建范式在推理过程中不断提高工具质量,使整个Agent系统在无需额外训练的情况下也能进步。大量实验表明,该方法为增强TIR模型的能力提供了一种新的范式。在多领域数学和科学推理任务的基准测试中,分别实现了+20.86%和+23.04%的显著性能提升,验证了Agent的自我进化能力。

🔬 方法详解

问题定义:现有工具集成推理模型依赖于预定义的工具集,无法灵活应对现实世界中复杂多变的开放性问题。这些模型缺乏自我优化机制,容易受到错误工具输出的影响,导致推理结果偏差。此外,手动构建和维护工具库成本高昂,限制了工具集成推理模型的应用范围。

核心思路:UCT的核心思想是将LLM的推理过程视为一种经验积累的过程,通过收集和提炼这些经验,自动构建和优化工具。Agent不再仅仅是工具的使用者,而是能够根据任务需求创造和改进工具的创造者。这种方法避免了对大量训练数据的依赖,实现了免训练的自适应学习。

技术框架:UCT框架主要包含以下几个模块:1) 经验收集模块:记录LLM在推理过程中的每一步操作,包括输入、工具选择、工具输出和中间推理步骤。2) 经验提炼模块:将收集到的经验进行清洗、筛选和抽象,提取出可重用的工具定义。3) 工具库维护模块:维护一个动态更新的工具库,根据工具的使用频率和效果进行排序和筛选,保证工具库的质量和效率。4) 推理执行模块:在推理过程中,Agent可以根据任务需求,从工具库中选择合适的工具,或者利用已有的经验创造新的工具。

关键创新:UCT最重要的创新在于实现了Agent从工具使用者到工具创造者的转变。与传统的工具集成推理模型相比,UCT无需预定义工具集,而是通过自主学习和经验积累,动态构建和优化工具。这种方法极大地提高了Agent的灵活性和适应性,使其能够更好地应对复杂多变的现实世界问题。

关键设计:UCT的关键设计包括:1) 经验表示:采用结构化的方式表示推理经验,包括输入、工具选择、工具输出和中间推理步骤。2) 工具定义:使用自然语言描述工具的功能和使用方法,方便Agent理解和使用。3) 记忆巩固机制:定期对工具库进行清理和优化,删除低效工具,保留高效工具,保证工具库的质量和效率。4) 工具选择策略:设计合理的工具选择策略,根据任务需求和工具的适用性,选择最合适的工具。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UCT在多领域数学和科学推理任务的基准测试中,分别实现了+20.86%和+23.04%的显著性能提升,超越了现有的工具集成推理模型。这些实验结果充分验证了UCT框架的有效性和优越性,表明其具有强大的自我进化能力。

🎯 应用场景

UCT框架具有广泛的应用前景,例如智能客服、自动化科学发现、智能编程助手等领域。它可以帮助Agent更好地理解和解决复杂问题,提高工作效率和决策质量。未来,UCT有望成为构建通用人工智能的重要基石。

📄 摘要(原文)

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%$\uparrow$ and +23.04%$\uparrow$ on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.