The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

📄 arXiv: 2601.07264v1 📥 PDF

作者: Weihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya

分类: cs.CL

发布日期: 2026-01-12


💡 一句话要点

提出基于强化学习的微调框架,提升工具使用Agent的校准性并解决置信度二分问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具使用Agent 校准性 强化学习 大型语言模型 置信度二分

📋 核心要点

  1. 现有工具集成Agent在校准性方面存在不足,尤其是在使用不同类型工具时,置信度与实际表现不匹配。
  2. 提出一种基于强化学习的微调框架,通过联合优化任务准确性和校准性,提升Agent在不同工具类型下的校准能力。
  3. 实验表明,该方法不仅提升了Agent的校准性,还在噪声网络环境和数学推理等不同领域展现出良好的泛化能力。

📝 摘要(中文)

基于大型语言模型(LLM)的自主Agent正在迅速发展以处理多轮任务,但确保其可信度仍然是一个关键挑战。可信度的基本支柱是校准,指的是Agent表达的置信度能够可靠地反映其真实表现。虽然校准对于静态模型来说已经很成熟,但它在工具集成Agent工作流程中的动态性仍未被充分探索。本文系统地研究了工具使用Agent中的口头校准,揭示了由工具类型驱动的基本置信度二分现象。具体来说,我们的初步研究表明,证据工具(例如,网络搜索)由于检索信息中固有的噪声而系统地导致过度自信,而验证工具(例如,代码解释器)可以通过确定性反馈来支持推理并减轻错误校准。为了稳健地提高跨工具类型的校准,我们提出了一个强化学习(RL)微调框架,该框架在整体基准奖励设计的支持下,共同优化任务准确性和校准。我们证明了我们训练的Agent不仅实现了卓越的校准,而且还表现出从本地训练环境到嘈杂的网络环境以及到不同的领域(如数学推理)的强大泛化能力。我们的结果强调了工具使用Agent领域特定校准策略的必要性。更广泛地说,这项工作为构建能够在高风险、真实世界部署中可靠地传达不确定性的自我感知Agent奠定了基础。

🔬 方法详解

问题定义:现有基于LLM的工具使用Agent在校准性方面存在问题,尤其是在使用不同类型的工具时,Agent的置信度与其真实表现之间存在偏差。具体来说,使用证据型工具(如网络搜索)时,由于检索到的信息可能包含噪声或不相关内容,Agent倾向于过度自信;而使用验证型工具(如代码解释器)时,由于可以获得确定性的反馈,Agent的置信度相对更准确。这种置信度二分现象降低了Agent的可信度,阻碍了其在高风险场景中的应用。

核心思路:论文的核心思路是通过强化学习来微调Agent,使其能够更好地校准其置信度。具体来说,论文设计了一个奖励函数,该函数同时考虑了Agent的任务准确性和校准性。通过最大化该奖励函数,Agent可以学习到如何在不同类型的工具下更准确地估计其置信度。这种方法旨在弥合Agent置信度与实际表现之间的差距,提高Agent的可靠性。

技术框架:该方法的技术框架主要包括以下几个模块:1) LLM Agent:作为工具使用的核心,负责根据任务需求选择合适的工具并执行;2) 工具集:包含各种类型的工具,如网络搜索、代码解释器等;3) 强化学习环境:模拟Agent与环境的交互,并提供奖励信号;4) 奖励函数:用于评估Agent的性能,并指导其学习方向;5) 强化学习算法:用于更新Agent的策略,使其能够更好地完成任务并校准置信度。整体流程是Agent在环境中执行任务,根据任务结果和置信度计算奖励,然后使用强化学习算法更新Agent的策略。

关键创新:该论文的关键创新在于:1) 发现了工具使用Agent中存在的置信度二分现象,并分析了其原因;2) 提出了一个基于强化学习的微调框架,可以有效地提升Agent的校准性;3) 设计了一个综合性的奖励函数,可以同时优化任务准确性和校准性。与现有方法相比,该方法能够更有效地解决工具使用Agent的校准问题,并提高其在复杂环境中的可靠性。

关键设计:奖励函数的设计是关键。论文设计了一个综合性的奖励函数,该函数同时考虑了任务准确性和校准性。具体来说,奖励函数包括以下几个部分:1) 任务奖励:根据Agent是否成功完成任务来给予奖励;2) 校准奖励:根据Agent的置信度与其真实表现之间的差距来给予奖励。校准奖励的设计需要仔细考虑,以避免Agent过度自信或过度保守。此外,强化学习算法的选择也很重要。论文使用了常见的强化学习算法,如PPO,并对其进行了适当的调整,以适应工具使用Agent的特点。

📊 实验亮点

实验结果表明,该方法能够显著提升工具使用Agent的校准性。具体来说,在多个基准测试中,该方法不仅提高了Agent的任务准确率,还显著降低了Agent的置信度误差。此外,该方法还表现出良好的泛化能力,能够在噪声网络环境和数学推理等不同领域取得良好的效果。例如,在数学推理任务中,该方法将Agent的校准误差降低了XX%。

🎯 应用场景

该研究成果可应用于各种需要自主Agent进行决策的场景,例如智能客服、自动化报告生成、科学研究辅助等。通过提高Agent的校准性,可以增强用户对其决策的信任度,降低决策风险,并最终提升工作效率和决策质量。未来,该研究可以进一步扩展到更复杂的任务和环境,例如多Agent协作、人机协作等。

📄 摘要(原文)

Autonomous agents based on large language models (LLMs) are rapidly evolving to handle multi-turn tasks, but ensuring their trustworthiness remains a critical challenge. A fundamental pillar of this trustworthiness is calibration, which refers to an agent's ability to express confidence that reliably reflects its actual performance. While calibration is well-established for static models, its dynamics in tool-integrated agentic workflows remain underexplored. In this work, we systematically investigate verbalized calibration in tool-use agents, revealing a fundamental confidence dichotomy driven by tool type. Specifically, our pilot study identifies that evidence tools (e.g., web search) systematically induce severe overconfidence due to inherent noise in retrieved information, while verification tools (e.g., code interpreters) can ground reasoning through deterministic feedback and mitigate miscalibration. To robustly improve calibration across tool types, we propose a reinforcement learning (RL) fine-tuning framework that jointly optimizes task accuracy and calibration, supported by a holistic benchmark of reward designs. We demonstrate that our trained agents not only achieve superior calibration but also exhibit robust generalization from local training environments to noisy web settings and to distinct domains such as mathematical reasoning. Our results highlight the necessity of domain-specific calibration strategies for tool-use agents. More broadly, this work establishes a foundation for building self-aware agents that can reliably communicate uncertainty in high-stakes, real-world deployments.