AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

📄 arXiv: 2605.00334v1 📥 PDF

作者: Ranit Karmakar, Jayita Chatterjee

分类: cs.AI, cs.CL

发布日期: 2026-05-01


💡 一句话要点

AgentFloor:评估小型开源模型在工具使用Agent中能力的阶梯式基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent系统 工具使用 长程规划 开源模型 基准测试

📋 核心要点

  1. 现有Agent评估未能区分Agent工作流中对大型模型和小型模型的需求。
  2. AgentFloor基准测试通过六个层级的能力阶梯,评估模型在指令遵循、工具使用和长程规划等任务上的表现。
  3. 实验表明,小型开源模型足以处理Agent流程中的大部分短程工具使用,但长程规划仍需大型模型。

📝 摘要(中文)

生产级Agent系统在每个用户请求中会进行多次模型调用,其中大多数调用是简短、结构化和例行的。这提出了一个实际的路由问题,即Agent工作流的哪些部分真正需要大型前沿智能,哪些可以由较小的模型处理?我们引入AgentFloor,这是一个确定性的30任务基准,组织成六个层级的能力阶梯,涵盖指令遵循、工具使用、多步骤协调以及在持久约束下的长程规划。我们评估了16个开源模型,参数量从0.27B到32B,以及GPT-5,总共进行了16542次评分运行。结果表明模型需求存在明显边界。小型和中型开源模型已经足以胜任实际Agent流程中的大部分短程、结构化工具使用工作,并且总体而言,最强的开源模型在我们的基准测试中与GPT-5相匹配,同时运行成本更低、速度更快。差距最明显地体现在需要持续协调和在多个步骤中可靠约束跟踪的长程规划任务中,前沿模型仍然具有优势,但双方都没有达到很高的可靠性。我们还发现,这种边界不能仅用规模来解释:一些失败可以通过有针对性的干预来解决,但效果是模型特定的,而不是通用的。这些发现为Agent系统提出了一个实用的设计原则:使用较小的开源模型来处理广泛的日常操作,并将大型前沿模型保留给真正需要更深入的规划和控制的较窄的任务类别。我们发布了基准、工具、扫描配置和完整的运行语料库。

🔬 方法详解

问题定义:现有Agent评估方法未能明确区分Agent工作流中哪些部分需要大型前沿模型,哪些部分可以使用较小的模型。实际Agent系统中,许多模型调用是短程、结构化的,对模型智能的要求并不高。因此,如何有效地路由这些调用,以降低成本和提高效率,是一个亟待解决的问题。

核心思路:论文的核心思路是通过构建一个分层级的基准测试AgentFloor,来评估不同规模的模型在不同复杂度的Agent任务上的表现。AgentFloor将任务分解为六个能力层级,从简单的指令遵循到复杂的长程规划,从而揭示模型能力需求的分界线。

技术框架:AgentFloor基准测试包含30个任务,组织成六个层级的能力阶梯。这些层级包括:指令遵循、工具使用、多步骤协调和在持久约束下的长程规划。论文使用确定性的评估方法,对16个开源模型(0.27B-32B参数)和GPT-5进行了评估。评估过程包括16542次评分运行,并记录了模型的性能和行为。

关键创新:AgentFloor的关键创新在于其分层级的任务设计,能够细粒度地评估模型在不同能力层级的表现。这使得研究人员能够识别模型能力需求的边界,并为Agent系统的设计提供指导。此外,论文还发现,模型规模并非决定性能的唯一因素,针对性的干预可以改善特定模型的性能。

关键设计:AgentFloor的任务设计涵盖了Agent系统的关键能力,例如指令遵循、工具使用、多步骤协调和长程规划。每个任务都经过精心设计,以确保其难度和区分度。评估指标包括任务完成率、效率和可靠性。论文还提供了完整的基准、工具、扫描配置和运行语料库,方便其他研究人员进行复现和扩展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,小型和中型开源模型足以胜任实际Agent流程中的大部分短程、结构化工具使用工作。最强的开源模型在AgentFloor基准测试中与GPT-5相匹配,同时运行成本更低、速度更快。但在长程规划任务中,前沿模型仍然具有优势,尽管双方都没有达到很高的可靠性。

🎯 应用场景

该研究成果可应用于Agent系统的设计和优化。通过了解不同规模模型的能力边界,开发者可以更有效地利用资源,使用小型模型处理日常任务,而将大型模型用于复杂的规划和控制任务。这有助于降低Agent系统的成本,提高效率和可靠性,并推动Agent技术在各个领域的应用。

📄 摘要(原文)

Production agentic systems make many model calls per user request, and most of those calls are short, structured, and routine. This raises a practical routing question that existing evaluations do not directly answer: which parts of an agent workflow truly require large frontier intelligence, and which can be handled by smaller models? We introduce AgentFloor, a deterministic 30-task benchmark organized as a six-tier capability ladder, spanning instruction following, tool use, multi-step coordination, and long-horizon planning under persistent constraints. We evaluate 16 open-weight models, from 0.27B to 32B parameters, alongside GPT-5 across 16,542 scored runs. Our results reveal a clear boundary of model necessity. Small and mid-sized open-weight models are already sufficient for much of the short-horizon, structured tool use work that dominates real agent pipelines, and in aggregate, the strongest open-weight model matches GPT-5 on our benchmark while being substantially cheaper and faster to run. The gap appears most clearly on long-horizon planning tasks that require sustained coordination and reliable constraint tracking over many steps, where frontier models still hold an advantage, though neither side reaches strong reliability. We also find that this boundary is not explained by scale alone: some failures respond to targeted interventions, but the effects are model-specific rather than universal. These findings suggest a practical design principle for agentic systems: use smaller open-weight models for the broad base of routine actions, and reserve large frontier models for the narrower class of tasks that truly demand deeper planning and control. We release the benchmark, harness, sweep configurations, and full run corpus.