MAVEN: Improving Generalization in Agentic Tool Calling

📄 arXiv: 2605.30738v1 📥 PDF

作者: Omkar Ghugarkar, Vishvesh Bhat, Muhammad Ahmed Mohsin, Asad Aali

分类: cs.AI

发布日期: 2026-05-29


💡 一句话要点

MAVEN:通过模块化验证执行网络提升Agentic工具调用中的泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic工具调用 泛化能力 符号推理 中间验证 任务分解

📋 核心要点

  1. 现有Agentic工具调用系统在跨环境泛化方面存在挑战,尤其是在复杂推理和跨领域任务中。
  2. MAVEN通过引入轻量级符号推理支架,实现结构化分解、自适应工具编排和中间验证,提升泛化能力。
  3. 实验表明,MAVEN在多个基准测试中表现出色,尤其是在MAVEN-Bench上,无需额外训练即可显著提升性能。

📝 摘要(中文)

可靠的Agentic推理系统面临的核心挑战是在Agentic工具调用环境中实现泛化。尽管大型语言模型在单个基准测试中表现出色,但它们在组合推理策略、保持中间状态以及跨领域协调工具方面的能力仍有待探索。本文提出了MAVEN(模块化Agentic验证和执行网络),这是一个轻量级的符号推理支架,用于结构化分解、自适应工具编排和中间验证。我们在包括BFCL v3、TauBench、Tau2Bench、AceBench等已建立的工具调用基准上评估了MAVEN,并引入了MAVEN-Bench,这是一个用于多步数学和物理推理的压力测试基准,具有显式验证和对抗性任务组合。MAVEN-Bench揭示了部分推理质量与端到端任务成功之间的巨大差距;在直接的MAVEN-Bench运行中,MAVEN将其GPT-OSS-120b基础模型从48%的准确率提高到71%,而无需额外的训练。它还与前沿的专有基线保持竞争力,同时使用估计成本比率约为1/10的开放权重骨干网络,这表明以轻量级验证为中心的支架可以加强组合推理,并促使对实际应用中的Agent进行更多过程感知的评估。

🔬 方法详解

问题定义:现有Agentic工具调用系统在面对复杂任务和不同环境时,泛化能力不足。它们难以有效地组合推理策略,保持中间状态,以及跨领域协调不同的工具。这导致在单个基准测试中表现良好的模型,在实际应用中表现不佳。

核心思路:MAVEN的核心思路是引入一个轻量级的符号推理支架,对任务进行结构化分解,并进行中间验证。通过显式地分解任务,并对每个步骤进行验证,MAVEN能够更好地控制推理过程,并减少错误累积。自适应工具编排则允许系统根据任务需求动态选择和组合工具。

技术框架:MAVEN的整体架构包含以下几个主要模块:1) 任务分解模块:将复杂任务分解为更小的、可管理的子任务。2) 工具选择模块:根据子任务的需求,选择合适的工具。3) 执行模块:执行选定的工具,并获取结果。4) 验证模块:验证执行结果的正确性。5) 组合模块:将子任务的结果组合成最终结果。整个流程是一个迭代的过程,直到任务完成或达到最大迭代次数。

关键创新:MAVEN的关键创新在于其轻量级的符号推理支架,以及中间验证机制。与传统的端到端方法不同,MAVEN通过显式地分解任务和验证中间结果,提高了推理过程的可控性和可靠性。这种方法使得模型能够更好地处理复杂任务,并提高泛化能力。

关键设计:MAVEN的设计重点在于保证各个模块的轻量级和高效性。例如,任务分解模块可以使用简单的规则或启发式方法,工具选择模块可以使用预定义的工具列表和选择策略。验证模块可以使用简单的逻辑规则或预训练的验证模型。这些设计选择使得MAVEN能够在计算资源有限的情况下运行,并保持较高的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MAVEN在MAVEN-Bench基准测试中表现出色,无需额外训练即可将其GPT-OSS-120b基础模型的准确率从48%提高到71%。同时,MAVEN在其他基准测试中也取得了具有竞争力的结果,并且使用开放权重模型,成本远低于专有模型,证明了其有效性和实用性。

🎯 应用场景

MAVEN可应用于需要复杂推理和工具调用的各种领域,如智能客服、自动化编程、科学研究等。通过提升Agentic系统的泛化能力和可靠性,MAVEN可以帮助人们更高效地完成各种任务,并降低出错的风险。未来,MAVEN有望成为构建更智能、更可靠的Agentic系统的基础。

📄 摘要(原文)

Generalization across agentic tool-calling environments remains a central challenge for reliable agentic reasoning systems. Although large language models achieve strong results on individual benchmarks, their ability to compose reasoning strategies, preserve intermediate states, and coordinate tools across domains remains underexplored. We present MAVEN (Modular Agentic Verification and Execution Network), a lightweight symbolic reasoning scaffold for structured decomposition, adaptive tool orchestration, and intermediate verification. We evaluate MAVEN across established tool-calling benchmarks, including BFCL v3, TauBench, Tau2Bench, AceBench, and introduce MAVEN-Bench, a stress-test benchmark for multi-step mathematical and physical reasoning with explicit verification and adversarial task composition. MAVEN-Bench exposes a substantial gap between partial reasoning quality and end-to-end task success; in direct MAVEN-Bench runs, MAVEN improves its GPT-OSS-120b base model from 48% to 71% accuracy without additional training. It also remains competitive with frontier proprietary baselines while using an open-weight backbone with an estimated cost ratio of roughly 1/10, suggesting that lightweight verification-centered scaffolds can strengthen compositional reasoning and motivate more process-aware evaluation of agents in the wild.