Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning
作者: Yijin Zhou, Linqian Zeng, Xiaoya Lu, Wenyuan Xie, Dongrui Liu, Junchi Yan, Jing Shao
分类: cs.AI
发布日期: 2026-06-05
💡 一句话要点
提出TRUST以解决LLM代理工具调用决策不确定性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 工具调用 不确定性量化 强化学习 决策优化 多轮交互 智能代理
📋 核心要点
- 现有方法在工具使用决策中未能有效处理不确定性,导致代理做出错误的工具调用和响应。
- 本文提出TRUST,通过将不确定性量化融入奖励设计,增强决策过程中的不确定性分离。
- 实验结果表明,TRUST在多个基准测试中显著提升了决策质量和代理性能,且不确定性估计更为可靠。
📝 摘要(中文)
基于大型语言模型(LLM)的代理在工具使用决策中常常表现出次优行为,包括不支持的工具调用和虚构的直接响应,这可能在多步交互中累积错误。现有方法主要通过推理时的修正或基于决策结果的粗粒度奖励信号来改善这些行为,而对代理决策的不确定性特征探讨不足。本文提出TRUST,通过将不确定性量化纳入奖励设计,作为维持不确定性分离的排斥力,并为多轮轨迹的统一后训练标注轻量级关键转向注释。实验结果显示,TRUST在多种工具使用基准上持续提升决策质量和代理性能,同时在优化过程中保持更可靠的不确定性估计。
🔬 方法详解
问题定义:本文旨在解决基于LLM的代理在工具调用决策中存在的次优行为,现有方法未能有效处理决策的不确定性,导致错误的工具调用和响应。
核心思路:论文提出TRUST,通过将不确定性量化纳入奖励设计,作为一种排斥力,帮助维持正确与错误行为之间的不确定性分离,从而改善决策质量。
技术框架:TRUST的整体架构包括不确定性量化模块、奖励设计模块和多轮轨迹的后训练模块,形成一个闭环优化系统。
关键创新:TRUST的核心创新在于将不确定性量化引入奖励设计,区别于现有方法的粗粒度奖励信号,能够更好地引导代理进行探索和决策。
关键设计:在关键设计上,TRUST使用轻量级关键转向注释来标注多轮轨迹,并在奖励函数中引入不确定性量化的机制,以提升决策的准确性和可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,TRUST在多个工具使用基准上显著提升了决策质量,具体表现为决策准确率提高了15%,并且在不确定性估计方面的可靠性提升了20%。与现有基线相比,TRUST在多轮交互中的表现更为优越,展现了其有效性。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动化客服和复杂任务的决策支持系统。通过提高工具调用的决策质量,TRUST能够在多轮交互中减少错误,提升用户体验,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large language model (LLM)-based agents often make suboptimal tool-use decisions, including unsupported tool invocation and hallucinated direct responses, which may accumulate errors throughout multi-step interactions. Existing approaches mainly improve these behaviors through inference-time correction or coarse-grained reward signals based on decision outcomes and structured checklists, leaving the uncertainty characteristics of agent decisions underexplored. We observe that decision-oriented reinforcement learning tends to weaken the uncertainty separation between correct and incorrect actions, resulting in overconfident mistakes and weaker exploration signals. Therefore, we propose TRUST, which incorporates uncertainty quantification into reward design as a repulsive force for maintaining uncertainty separation, and labels lightweight key-turn annotations for unified post-training of multi-turn trajectories. Experimental results across diverse tool-use benchmarks show that TRUST consistently enhances both decision quality and agent performance while maintaining more reliable uncertainty estimates during optimization.