ARM: Discovering Agentic Reasoning Modules for Generalizable Multi-Agent Systems
作者: Bohan Yao, Shiva Krishna Reddy Malay, Vikas Yadav
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-10-07
备注: 29 pages, 2 figures
💡 一句话要点
提出ARM:发现通用多智能体系统的Agentic推理模块
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 自动设计 链式思考 Agentic推理模块 通用性 代码搜索 智能体推理
📋 核心要点
- 现有自动多智能体系统设计方法性能不佳,且计算成本高昂,需要为每个新任务领域重新发现架构。
- 论文提出Agentic推理模块(ARM),通过优化链式思考(CoT)推理,实现自动多智能体系统设计。
- 实验表明,基于ARM构建的MAS显著优于手动设计和现有自动设计方法,并具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种新的自动多智能体系统(MAS)设计范式,专注于优化链式思考(CoT)推理。我们引入了Agentic推理模块(ARM),它是CoT的智能体泛化,其中每个细粒度的推理步骤都由一个专门的推理模块执行。该模块通过代码空间的树搜索发现,从简单的CoT模块开始,并使用基于执行轨迹反思的突变进行演化。生成的ARM作为一个通用的推理构建块,可以直接用作递归循环,也可以用作学习的元编排器中的子程序。我们的方法显著优于手动设计的MAS和最先进的自动MAS设计方法。重要的是,使用ARM构建的MAS表现出卓越的泛化能力,在不同的基础模型和任务领域中保持高性能,而无需进一步优化。
🔬 方法详解
问题定义:现有自动多智能体系统(MAS)设计方法,例如自动发现架构,在性能上往往不如简单的基线方法。此外,这些方法需要为每个新的任务领域进行昂贵的架构重新发现,并且在没有现有标记验证集的情况下,需要进行昂贵的数据标注。因此,需要一种更有效、更通用的自动MAS设计方法。
核心思路:论文的核心思路是关注MAS中基本的推理单元——链式思考(CoT),并对其进行优化。通过将CoT泛化为Agentic推理模块(ARM),每个推理步骤由专门的模块执行,从而提高推理的灵活性和效率。ARM的设计目标是成为一个通用的推理构建块,可以适应不同的任务和模型。
技术框架:整体框架包含以下几个主要阶段:1) 从一个简单的CoT模块开始;2) 通过代码空间的树搜索发现ARM,使用基于执行轨迹反思的突变进行演化;3) 将生成的ARM用作递归循环或学习的元编排器中的子程序,构建完整的MAS。该框架的核心是ARM的发现和演化过程。
关键创新:最重要的技术创新点是Agentic推理模块(ARM)的概念。ARM将CoT推理泛化为由专门的推理模块执行的细粒度推理步骤,从而提高了推理的灵活性和可扩展性。与现有方法相比,ARM不是直接搜索整个MAS架构,而是专注于优化基本的推理单元,从而降低了搜索空间和计算成本。
关键设计:ARM的发现过程使用代码空间的树搜索,从简单的CoT模块开始,并使用基于执行轨迹反思的突变进行演化。具体的突变策略和搜索算法(例如,蒙特卡洛树搜索)未在摘要中详细说明。元编排器的具体学习方法也未详细说明,但推测可能使用强化学习或监督学习方法来学习如何有效地利用ARM。
🖼️ 关键图片
📊 实验亮点
论文提出的ARM方法在多个任务领域和不同的基础模型上都取得了显著的性能提升,超越了手动设计的MAS和现有的自动MAS设计方法。更重要的是,基于ARM构建的MAS表现出卓越的泛化能力,无需针对特定任务进行额外优化,即可在不同场景中保持高性能。具体的性能数据和提升幅度在摘要中未给出。
🎯 应用场景
该研究成果可应用于各种需要复杂推理的多智能体系统,例如智能客服、自动驾驶、博弈对抗、任务规划等。通过自动发现和优化推理模块,可以显著提高多智能体系统的性能和泛化能力,降低人工设计和调优的成本。该方法有望推动多智能体系统在实际场景中的广泛应用。
📄 摘要(原文)
Large Language Model (LLM)-powered Multi-agent systems (MAS) have achieved state-of-the-art results on various complex reasoning tasks. Recent works have proposed techniques to automate the design of MASes, eliminating the need for manual engineering. However, these techniques perform poorly, often achieving similar or inferior performance to simple baselines. Furthermore, they require computationally expensive re-discovery of architectures for each new task domain and expensive data annotation on domains without existing labeled validation sets. A critical insight is that simple Chain of Thought (CoT) reasoning often performs competitively with these complex systems, suggesting that the fundamental reasoning unit of MASes, CoT, warrants further investigation. To this end, we present a new paradigm for automatic MAS design that pivots the focus to optimizing CoT reasoning. We introduce the Agentic Reasoning Module (ARM), an agentic generalization of CoT where each granular reasoning step is executed by a specialized reasoning module. This module is discovered through a tree search over the code space, starting from a simple CoT module and evolved using mutations informed by reflection on execution traces. The resulting ARM acts as a versatile reasoning building block which can be utilized as a direct recursive loop or as a subroutine in a learned meta-orchestrator. Our approach significantly outperforms both manually designed MASes and state-of-the-art automatic MAS design methods. Crucially, MASes built with ARM exhibit superb generalization, maintaining high performance across different foundation models and task domains without further optimization.