Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization
作者: Xudong Wang, Chaoning Zhang, Jiaquan Zhang, Chenghao Li, Qigan Sun, Sung-Ho Bae, Peng Wang, Ning Xie, Jie Zou, Yang Yang, Hengtao Shen
分类: cs.AI
发布日期: 2026-03-13
备注: 11 pages, 3 figures, submitted to IEEE Transactions on Artificial Intelligence
💡 一句话要点
提出AMRO-S,通过蚁群优化实现高效且可解释的多智能体LLM路由
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 路由算法 蚁群优化 语言模型 意图识别 资源优化 可解释性 路径选择
📋 核心要点
- 现有MAS路由策略依赖昂贵的LLM选择器或静态策略,缺乏动态负载和混合意图下的语义感知可控性,导致性能不稳定和资源利用率低。
- AMRO-S将MAS路由建模为语义条件路径选择问题,利用SFT小模型进行意图推断,并采用蚁群优化算法进行路径选择。
- 实验表明,AMRO-S在多个基准测试中,相较于现有方法,在保证服务质量的同时,显著降低了推理成本,并提供了可解释的路由路径。
📝 摘要(中文)
本文提出了一种名为AMRO-S的高效且可解释的多智能体系统(MAS)路由框架。该框架将MAS路由建模为语义条件下的路径选择问题,并通过三个关键机制提升路由性能:首先,利用监督微调(SFT)的小型语言模型进行意图推断,为每个查询提供低开销的语义接口;其次,将路由记忆分解为特定于任务的信息素专家,减少跨任务干扰,优化混合工作负载下的路径选择;最后,采用质量门控的异步更新机制,将推理与学习解耦,在不增加延迟的情况下优化路由。在五个公共基准测试和高并发压力测试中进行的大量实验表明,AMRO-S始终优于强大的路由基线,并在质量-成本之间取得更好的平衡,同时通过结构化的信息素模式提供可追溯的路由证据。
🔬 方法详解
问题定义:现有基于LLM的多智能体系统路由方法,要么依赖于计算成本高昂的LLM进行路由决策,要么采用静态策略,无法根据动态负载和用户意图进行灵活调整。这导致资源利用率低下,且难以保证在不同任务下的性能。
核心思路:AMRO-S的核心思路是将多智能体路由问题转化为一个基于语义信息的路径选择问题,并借鉴蚁群优化算法的思想来寻找最优路径。通过引入信息素的概念,让系统能够学习并适应不同任务的需求,从而实现高效且可解释的路由。
技术框架:AMRO-S框架主要包含三个模块:1) 意图推断模块:使用SFT小模型对用户查询进行意图推断,提取语义信息;2) 信息素专家模块:将路由记忆分解为特定于任务的信息素专家,每个专家负责学习对应任务的最优路径;3) 路径选择模块:基于蚁群优化算法,根据意图信息和信息素浓度选择最优路径,并将查询路由到相应的智能体。
关键创新:AMRO-S的关键创新在于将蚁群优化算法引入到多智能体路由中,并结合语义信息进行路径选择。与传统的基于LLM的路由方法相比,AMRO-S具有更低的计算成本和更高的可解释性。同时,通过信息素专家机制,AMRO-S能够更好地处理混合工作负载,避免跨任务干扰。
关键设计:AMRO-S的关键设计包括:1) 使用SFT小模型进行意图推断,降低计算成本;2) 采用质量门控的异步更新机制,将推理与学习解耦,避免增加延迟;3) 设计了特定的信息素更新策略,以保证算法的收敛性和鲁棒性。具体的信息素更新公式和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
AMRO-S在五个公共基准测试中均优于现有路由基线。在高并发压力测试中,AMRO-S在保证服务质量的前提下,显著降低了推理成本。例如,在某个基准测试中,AMRO-S相较于最强的基线方法,在相同服务质量下,降低了20%的推理成本,并提供了可追溯的路由证据。
🎯 应用场景
AMRO-S可应用于各种需要多智能体协作的场景,例如智能客服、自动化流程管理、智能推荐系统等。通过高效的路由策略,AMRO-S能够降低推理成本,提高系统响应速度,并提供可解释的路由路径,从而提升用户体验和系统性能。未来,该研究可进一步扩展到更复杂的任务和更大规模的智能体系统。
📄 摘要(原文)
Large Language Model (LLM)-driven Multi-Agent Systems (MAS) have demonstrated strong capability in complex reasoning and tool use, and heterogeneous agent pools further broaden the quality--cost trade-off space. Despite these advances, real-world deployment is often constrained by high inference cost, latency, and limited transparency, which hinders scalable and efficient routing. Existing routing strategies typically rely on expensive LLM-based selectors or static policies, and offer limited controllability for semantic-aware routing under dynamic loads and mixed intents, often resulting in unstable performance and inefficient resource utilization. To address these limitations, we propose AMRO-S, an efficient and interpretable routing framework for Multi-Agent Systems (MAS). AMRO-S models MAS routing as a semantic-conditioned path selection problem, enhancing routing performance through three key mechanisms: First, it leverages a supervised fine-tuned (SFT) small language model for intent inference, providing a low-overhead semantic interface for each query; second, it decomposes routing memory into task-specific pheromone specialists, reducing cross-task interference and optimizing path selection under mixed workloads; finally, it employs a quality-gated asynchronous update mechanism to decouple inference from learning, optimizing routing without increasing latency. Extensive experiments on five public benchmarks and high-concurrency stress tests demonstrate that AMRO-S consistently improves the quality--cost trade-off over strong routing baselines, while providing traceable routing evidence through structured pheromone patterns.