Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents

📄 arXiv: 2604.11465v1 📥 PDF

作者: S. Aaron McClendon, Jorge Gallego-Feliciano, Stavros Zervoudakis, Antonios Saravanos

分类: cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出基于角色编排的推理时框架,提升小模型Agent在复杂任务中的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型Agent 推理时优化 角色编排 小模型 工具使用

📋 核心要点

  1. 现有大型语言模型Agent部署在资源受限的硬件上存在挑战,性能难以保证。
  2. 论文提出一种三层推理脚手架管道,通过角色编排提升小模型Agent在复杂任务中的性能。
  3. 实验表明,该方法在FP16和AWQ配置下均能显著提升任务完成率,甚至超越更大的模型。

📝 摘要(中文)

大型语言模型(LLM)Agent在实际工具使用任务中展现出潜力,但在普通硬件上部署高性能Agent仍然具有挑战性。本文研究了仅通过推理时脚手架(inference-time scaffolding),无需额外训练计算,是否可以提高小模型在复杂多步骤环境中的性能。在单个24GB GPU上,评估了Qwen3-8B在全精度(FP16,12K上下文)和4位量化(AWQ,32K上下文)配置下的性能。在没有任何干预的情况下,原始模型的任务目标完成率仅为5.4%(FP16)和3.0%(AWQ)。通过系统的失败模式分析,引入了一个三层推理脚手架管道,将同一冻结模型部署在三个不同的角色中:(1)摘要模型,用于在压缩对话历史的同时保留关键信息;(2)主Agent模型,用于对压缩上下文进行推理;(3)隔离的纠错模型,用于审查和修改Agent的代码输出,而无需访问对话历史,从而打破重复失败循环。应用于同一未修改的模型,这种脚手架将任务目标完成率提高到8.9%(FP16)和5.9%(AWQ),大致使性能翻倍,在难度为1的任务上获得了特别强的收益(15.8%→26.3% FP16;5.3%→14.0% AWQ)。在全精度推理方面,脚手架后的8B模型超过了原始AppWorld评估中的DeepSeek-Coder 33B Instruct(7.1%),表明结构化的推理时干预可以使小模型与比其大4倍的系统竞争。本文将该方法形式化为冻结基础模型上的脚手架策略,通过不同的条件作用对相同权重进行三次调用,并将此与强化学习中的测试时计算缩放和动作空间整形联系起来。

🔬 方法详解

问题定义:论文旨在解决在资源有限的硬件上部署高性能LLM Agent的问题。现有方法要么依赖于大型模型,计算成本高昂;要么直接使用小型模型,性能不足,难以完成复杂的多步骤任务。现有的痛点在于如何在不增加训练成本的前提下,提升小模型的推理能力。

核心思路:论文的核心思路是在推理时对小模型进行角色编排,构建一个三层脚手架管道。通过将同一模型赋予不同的角色(摘要、推理、纠错),并进行有针对性的干预,从而弥补小模型在复杂任务中的不足。这种方法类似于在测试时进行计算缩放,但无需额外的模型参数。

技术框架:整体框架包含三个主要模块: 1. 摘要模型:负责压缩对话历史,保留关键信息(tokens, credentials, API responses),减少主Agent模型的上下文负担。 2. 主Agent模型:基于压缩后的上下文进行推理,生成行动计划和代码。 3. 纠错模型:独立于对话历史,专门审查和修改主Agent生成的代码,避免重复性错误。 这三个模块共享相同的模型权重,但以不同的方式进行条件作用。

关键创新:最重要的创新在于推理时的角色编排和脚手架策略。与传统的单一模型推理相比,该方法通过结构化的干预,将复杂任务分解为更小的子任务,并由不同的角色分别处理。这种方法能够有效利用小模型的潜力,使其在特定任务上达到甚至超过大型模型的性能。

关键设计: 1. 模型选择:选择Qwen3-8B作为基础模型,因为它在性能和资源消耗之间取得了较好的平衡。 2. 量化:采用AWQ量化技术,进一步降低模型的内存占用,并扩大上下文窗口。 3. 角色定义:精心设计了三个角色的功能和交互方式,确保它们能够协同工作,共同完成任务。 4. 无训练:整个框架无需额外的训练,所有改进均来自于推理时的干预。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在AppWorld数据集上,使用该脚手架策略的Qwen3-8B模型在FP16配置下,任务目标完成率从5.4%提升至8.9%,在AWQ配置下从3.0%提升至5.9%,性能提升显著。更重要的是,在全精度推理方面,该方法使得8B模型超越了DeepSeek-Coder 33B Instruct(7.1%),证明了小模型通过结构化推理时干预可以与更大的模型竞争。

🎯 应用场景

该研究成果可应用于各种需要智能Agent辅助的场景,例如自动化客服、智能家居控制、软件开发辅助等。特别是在资源受限的环境下,例如边缘计算设备或移动设备,该方法能够以较低的成本部署高性能的Agent,具有重要的实际应用价值和商业潜力。未来,该方法可以进一步扩展到更多类型的任务和模型。

📄 摘要(原文)

Large language model (LLM) agents show promise on realistic tool-use tasks, but deploying capable agents on modest hardware remains challenging. We study whether inference-time scaffolding alone, without any additional training compute, can improve the performance of a small model in complex multi-step environments. Operating on a single 24\,GB GPU, we evaluate Qwen3-8B under both full-precision (FP16, 12K context) and 4-bit quantized (AWQ, 32K context) configurations. Without any intervention, the raw model achieves just 5.4\% (FP16) and 3.0\% (AWQ) task goal completion. Guided by a systematic failure mode analysis, we introduce a three-tier inference scaffolding pipeline that deploys the same frozen model in three distinct roles: (1) a summarization model that preserves critical artifacts (tokens, credentials, API responses) while compressing dialogue history; (2) the main agent model that reasons over the compressed context; and (3) an isolated correction model that reviews and revises the agent's code output without access to conversation history, breaking repetitive failure loops. Applied to the same unmodified model, this scaffolding yields 8.9\% (FP16) and 5.9\% (AWQ) task goal completion, roughly doubling performance in both settings, with particularly strong gains on difficulty-1 tasks (15.8\%$\to$26.3\% FP16; 5.3\%$\to$14.0\% AWQ). On full-precision inference, our scaffolded 8B model surpasses DeepSeek-Coder 33B Instruct (7.1\%) from the original AppWorld evaluation, demonstrating that structured inference-time interventions can make small models competitive with systems 4$\times$ their size. We formalize the approach as a scaffolded policy over a frozen base model, three invocations of the same weights with different conditioning, drawing connections to test-time compute scaling and action-space shaping in reinforcement learning.