When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

📄 arXiv: 2605.30102v1 📥 PDF

作者: Corrado Rainone, Davide Belli, Bence Major, Arash Behboodi

分类: cs.MA, cs.AI

发布日期: 2026-05-28

备注: 30 pages, 16 figures. Accepted to the Second Workshop on Agents in the Wild: Safety, Security, and Beyond (AIWILD) at ICML 2026


💡 一句话要点

探索混合多智能体系统:云端与设备端智能协同推理的设计空间

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 混合智能体 云端推理 设备端推理 大型语言模型 小型语言模型 边缘计算 系统设计

📋 核心要点

  1. 现有智能体设计面临挑战:云端LLM成本高昂,设备端SLM性能受限,缺乏通用混合设计原则。
  2. 论文提出系统性研究方法:探索混合MAS架构,分析不同设计选择对性能、成本和功耗的影响。
  3. 实验结果表明:SLM可受益于LLM辅助,但最优架构与任务相关,算力提升不一定带来性能提升。

📝 摘要(中文)

本文深入研究了混合多智能体系统(MASs)的设计空间,该系统结合了云端托管的大型语言模型(LLMs)和设备端运行的小型语言模型(SLMs)。这种混合架构旨在平衡任务准确性、经济成本和边缘设备能耗。研究通过调整两种代表性的MAS架构以支持混合推理,系统性地分析了不同设计选择对功耗、成本和性能的影响。结果表明,SLMs可以有效地受益于LLMs的辅助,但最佳架构高度依赖于具体任务,并且更强的云端算力并不总是能转化为更好的性能。

🔬 方法详解

问题定义:论文旨在解决如何在多智能体系统中有效结合云端大型语言模型(LLMs)和设备端小型语言模型(SLMs),以在任务准确性、经济成本和边缘设备能耗之间取得最佳平衡的问题。现有方法通常采用特定领域定制的临时解决方案,缺乏通用的设计原则和系统性的分析框架。

核心思路:论文的核心思路是通过系统性地探索混合多智能体系统的设计空间,分析不同设计选择对系统性能的影响,从而为混合智能体系统的设计提供指导。这种方法旨在找到在给定任务下,能够以最低成本和功耗实现最佳性能的混合架构。

技术框架:论文采用了两种代表性的多智能体系统架构,并对其进行改造以支持混合推理。具体流程包括:1) 定义任务场景;2) 选择或设计合适的MAS架构;3) 将部分或全部智能体替换为云端LLM或设备端SLM;4) 设计智能体之间的通信和协作机制;5) 在不同的硬件平台上进行实验,评估性能、成本和功耗。

关键创新:论文的关键创新在于对混合多智能体系统设计空间的系统性探索和分析。它不仅考虑了不同模型的性能差异,还关注了成本、功耗等实际因素,并分析了这些因素之间的相互影响。此外,论文还强调了任务依赖性,指出最优的混合架构需要根据具体任务进行调整。

关键设计:论文的关键设计包括:1) 如何选择合适的LLM和SLM;2) 如何设计智能体之间的通信协议,以便LLM能够有效地辅助SLM;3) 如何优化任务分配策略,以充分利用LLM和SLM的优势;4) 如何在边缘设备上部署和优化SLM,以降低功耗。

📊 实验亮点

研究表明,SLM可以通过LLM的辅助显著提升性能,但最优架构高度依赖于具体任务。实验结果强调了在设计混合MAS时,不能简单地认为更强的云端算力就一定能带来更好的性能。需要根据任务特点,仔细权衡性能、成本和功耗之间的关系,选择最合适的混合架构。

🎯 应用场景

该研究成果可应用于各种需要智能体协作的场景,例如智能家居、自动驾驶、工业自动化等。通过合理配置云端和设备端智能体,可以在保证性能的同时,降低成本和功耗,实现更高效、更可持续的智能系统。未来的研究可以进一步探索更复杂的混合架构和更智能的任务分配策略。

📄 摘要(原文)

The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.