Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms

作者: Xinlin Wang, Mats Brorsson

分类: cs.CL, cs.AI

发布日期: 2026-04-21

💡 一句话要点

探索Agent范式下小型语言模型的部署权衡，提升资源受限场景性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 Agent范式 工具使用 多Agent协作 资源受限环境

📋 核心要点

大型语言模型部署成本高昂，小型语言模型能力不足，现有研究缺乏对Agent范式在小型语言模型上的系统性探索。
本文探索了工具使用和多Agent协作等Agent范式，以弥补小型语言模型在知识和推理方面的不足。
实验表明，单Agent系统在性能和成本之间取得了最佳平衡，为资源受限场景下的高效部署提供了思路。

📝 摘要（中文）

大型语言模型的能力令人印象深刻，但其巨大的计算成本、延迟和隐私风险阻碍了它们在实际应用中的广泛部署。参数小于100亿的小型语言模型（SLM）提供了一种有希望的替代方案；然而，它们在知识和推理方面的固有局限性限制了它们的有效性。现有的研究主要集中于通过缩放定律或微调策略来增强SLM，而忽略了使用Agent范式（如工具使用和多Agent协作）来系统地弥补小型模型固有弱点的潜力。为了解决这一差距，本文首次对<10B的开源模型在三种范式下进行了大规模、全面的研究：（1）基础模型，（2）配备工具的单个Agent，以及（3）具有协作能力的多Agent系统。结果表明，单Agent系统在性能和成本之间实现了最佳平衡，而多Agent设置增加了开销，但收益有限。我们的研究结果强调了以Agent为中心的设计对于在资源受限环境中进行高效和可信部署的重要性。

🔬 方法详解

问题定义：论文旨在解决小型语言模型（SLM）在实际应用中因知识和推理能力不足而导致性能受限的问题。现有方法主要集中于模型缩放或微调，忽略了利用Agent范式（如工具使用和多Agent协作）来增强SLM能力的可能性。因此，如何有效地利用Agent范式来提升SLM的性能，同时控制计算成本和延迟，是本文要解决的核心问题。

核心思路：论文的核心思路是探索不同的Agent范式（单Agent工具使用和多Agent协作）如何影响SLM的性能和部署成本。通过将SLM与工具和协作机制相结合，旨在弥补SLM在知识和推理方面的不足，使其在资源受限的环境中也能实现高效和可信的部署。这种设计思路基于Agent范式能够赋予SLM更强的交互能力和问题解决能力。

技术框架：论文的技术框架主要包括三个部分：基础模型（Base Model）、单Agent系统（Single Agent with Tools）和多Agent系统（Multi-Agent System）。基础模型作为性能基线，单Agent系统通过集成工具来扩展SLM的能力，多Agent系统则通过协作来解决复杂问题。实验流程包括：选择<10B的开源SLM，构建相应的Agent环境，设计实验任务，评估不同范式下的性能和成本。

关键创新：论文的关键创新在于首次对<10B的开源SLM在不同的Agent范式下进行了大规模、全面的研究。与现有研究主要关注模型缩放或微调不同，本文强调了Agent范式在提升SLM性能方面的潜力。通过对比不同Agent范式的性能和成本，为在资源受限环境中部署SLM提供了新的思路。

关键设计：在单Agent系统中，关键设计在于选择合适的工具，并设计有效的工具调用机制。在多Agent系统中，关键设计在于设计合理的Agent角色和协作策略，以避免协作带来的额外开销。具体的参数设置和网络结构取决于所选择的SLM和工具，论文中可能没有详细描述这些细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，单Agent系统在性能和成本之间取得了最佳平衡，优于基础模型和多Agent系统。具体性能数据和提升幅度在摘要中未明确给出，但研究强调了单Agent系统在资源受限场景下的优势。多Agent系统虽然具有协作能力，但由于引入了额外的开销，其性能提升有限。

🎯 应用场景

该研究成果可应用于资源受限的边缘计算设备、移动设备和嵌入式系统中，例如智能家居、自动驾驶、智能客服等。通过利用Agent范式，小型语言模型可以在这些场景下实现更高效、更可靠的自然语言处理能力，从而提升用户体验和应用价值。未来的研究可以进一步探索更复杂的Agent协作策略和更有效的工具集成方法。

📄 摘要（原文）

Despite the impressive capabilities of large language models, their substantial computational costs, latency, and privacy risks hinder their widespread deployment in real-world applications. Small Language Models (SLMs) with fewer than 10 billion parameters present a promising alternative; however, their inherent limitations in knowledge and reasoning curtail their effectiveness. Existing research primarily focuses on enhancing SLMs through scaling laws or fine-tuning strategies while overlooking the potential of using agent paradigms, such as tool use and multi-agent collaboration, to systematically compensate for the inherent weaknesses of small models. To address this gap, this paper presents the first large-scale, comprehensive study of <10B open-source models under three paradigms: (1) the base model, (2) a single agent equipped with tools, and (3) a multi-agent system with collaborative capabilities. Our results show that single-agent systems achieve the best balance between performance and cost, while multi-agent setups add overhead with limited gains. Our findings highlight the importance of agent-centric design for efficient and trustworthy deployment in resource-constrained settings.

Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理