Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models
作者: Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
分类: cs.CV, cs.AI
发布日期: 2026-04-09
备注: Project Page: https://Accio-Lab.github.io/Metis
💡 一句话要点
提出HDPO框架,提升Agentic多模态模型在工具使用上的元认知能力和效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic多模态模型 元认知 工具使用 强化学习 条件优势估计 认知课程 HDPO框架
📋 核心要点
- 现有Agentic多模态模型在工具使用上存在元认知缺陷,无法有效区分内部知识和外部工具,导致盲目调用工具。
- HDPO框架将工具效率从标量目标重构为条件目标,解耦准确率和效率优化通道,引导智能体先掌握任务解决再优化工具使用。
- 实验结果表明,Metis模型在显著减少工具调用次数的同时,提高了推理准确性,验证了HDPO框架的有效性。
📝 摘要(中文)
Agentic多模态模型能够主动与外部环境交互。然而,现有模型存在严重的元认知缺陷:难以区分利用内部知识和查询外部工具。这导致盲目调用工具,即使视觉上下文可以解决问题也进行工具执行,造成延迟瓶颈和噪声干扰。现有强化学习方法通过标量化奖励惩罚工具使用,但这种耦合方式造成优化困境:过度的惩罚抑制了必要的工具使用,而轻微的惩罚则被优势归一化过程中的准确率奖励方差所掩盖,无法有效防止过度使用工具。为此,我们提出了HDPO框架,将工具效率从竞争的标量目标重构为严格的条件目标。HDPO避免了奖励标量化,维持了两个正交的优化通道:准确率通道最大化任务正确性,效率通道通过条件优势估计,仅在准确的轨迹内强制执行执行经济性。这种解耦架构自然地诱导了一个认知课程,迫使智能体首先掌握任务解决,然后完善其自力更生能力。大量评估表明,我们的模型Metis将工具调用次数减少了几个数量级,同时提高了推理准确性。
🔬 方法详解
问题定义:现有Agentic多模态模型在需要利用工具时,常常无法判断是否真的需要调用外部工具。即使可以通过视觉信息直接解决问题,模型仍然会盲目地调用工具,导致不必要的延迟和噪声。现有的强化学习方法试图通过惩罚工具的使用来解决这个问题,但是简单的奖励标量化方法无法平衡任务准确率和工具使用效率,要么抑制了必要的工具使用,要么无法有效防止过度使用工具。
核心思路:HDPO的核心思路是将工具使用效率从一个需要权衡的标量目标,转变为一个条件目标。也就是说,只有在模型能够正确完成任务的前提下,才需要考虑如何更高效地使用工具。通过这种方式,模型可以首先专注于提高任务的准确率,然后再逐步学习如何避免不必要的工具调用。
技术框架:HDPO框架包含两个主要的优化通道:准确率通道和效率通道。准确率通道负责最大化任务的正确率,使用标准的强化学习方法进行优化。效率通道则负责在准确的轨迹内,通过条件优势估计来强制执行执行经济性。这意味着只有在模型能够正确完成任务的情况下,才会对工具的使用进行惩罚。这种解耦的架构使得模型可以分别优化准确率和效率,避免了奖励标量化带来的优化困境。
关键创新:HDPO最重要的创新点在于将工具使用效率从一个需要权衡的标量目标,转变为一个条件目标。这种转变使得模型可以分别优化准确率和效率,避免了奖励标量化带来的优化困境。此外,HDPO还使用了条件优势估计,只在准确的轨迹内对工具的使用进行惩罚,避免了对必要工具使用的抑制。
关键设计:HDPO的关键设计包括:1) 解耦的准确率和效率优化通道;2) 条件优势估计,只在准确的轨迹内对工具的使用进行惩罚;3) 认知课程,迫使智能体首先掌握任务解决,然后完善其自力更生能力。具体的损失函数设计和网络结构选择取决于具体的任务和模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Metis模型在多个任务上显著减少了工具调用次数,降低了几个数量级,同时还提升了推理准确性。这表明HDPO框架能够有效提升Agentic多模态模型在工具使用上的元认知能力和效率,克服了现有方法的局限性。
🎯 应用场景
该研究成果可应用于各种需要Agentic多模态模型与外部环境交互的场景,例如智能助手、机器人导航、自动驾驶等。通过提升模型在工具使用上的元认知能力和效率,可以减少延迟、降低成本、提高用户体验,并为更智能、更可靠的智能系统奠定基础。
📄 摘要(原文)
The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.