Multi$^2$: Hierarchical Multi-Agent Decision-Making with LLM-Based Agents in Interactive Environments
作者: Sangeun Park, Minhae Kwon
分类: cs.LG
发布日期: 2026-06-02
备注: Accepted at ICML 2026
💡 一句话要点
提出Multi$^2$框架以解决长时决策中的目标漂移问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时决策 多代理系统 强化学习 上下文感知 目标漂移 分层决策 智能系统
📋 核心要点
- 现有的LLM代理在长时决策中容易出现目标漂移,导致计划和目标不稳定,影响系统的有效性。
- Multi$^2$框架通过将代理行为分解为高层和低层角色,分别负责子目标生成和原子动作执行,从而提高决策的稳定性和适应性。
- 在多种互动环境中,Multi$^2$的表现超越了多个强基线,展示了在多轮互动中的更高鲁棒性和协调能力。
📝 摘要(中文)
大型语言模型(LLM)研究的核心目标之一是构建能够通过与动态环境持续互动进行规划、行动和适应的智能系统。尽管近期的LLM代理在上下文推理方面表现出色,但其长时决策能力仍然脆弱,常常出现目标漂移现象。本文提出了Multi$^2$,一个分层的多代理决策框架,明确将代理行为分解为互补角色。高层代理(系统1)专注于上下文感知的子目标生成,而低层代理(系统2)则通过离线到在线的强化学习执行原子动作。这种分离使得长时控制更加稳定,减轻了目标漂移,并允许高效适应。Multi$^2$在多种互动环境中始终优于强基线,展示了在多轮互动中的鲁棒性和协调性改进。此外,本文还引入并发布了三个分层基准数据集,填补了LLM代理分层决策训练与评估的长期空白。
🔬 方法详解
问题定义:本文旨在解决大型语言模型(LLM)代理在长时决策中出现的目标漂移问题。现有方法在动态环境中进行长时间互动时,常常导致目标和计划的不一致,影响决策的有效性。
核心思路:Multi$^2$框架通过将代理行为分解为高层和低层角色来解决这一问题。高层代理负责生成上下文感知的子目标,而低层代理则执行具体的原子动作,这种分离设计有助于稳定长时控制并提高适应能力。
技术框架:Multi$^2$的整体架构包括两个主要模块:高层代理(系统1)和低层代理(系统2)。高层代理通过监督微调(SFT)生成子目标,低层代理则通过离线到在线的强化学习(RL)执行动作。整个流程通过高层代理的目标生成和低层代理的动作执行相互配合,实现高效的决策过程。
关键创新:Multi$^2$的主要创新在于其分层决策机制,通过明确角色分工来减轻目标漂移,与现有方法相比,提供了更稳定的长时控制能力。
关键设计:在设计中,采用了监督微调来优化高层代理的子目标生成,同时低层代理则利用强化学习进行动作选择。具体的参数设置和损失函数设计未在摘要中详细说明,需参考原文获取更多技术细节。
🖼️ 关键图片
📊 实验亮点
在多种互动环境中,Multi$^2$框架的表现显著优于多个强基线,展示了在多轮互动中的鲁棒性和协调能力的提升。具体而言,实验结果表明,Multi$^2$在长时决策任务中的成功率提高了XX%,有效减轻了目标漂移现象。
🎯 应用场景
Multi$^2$框架具有广泛的潜在应用场景,包括智能机器人、自动驾驶、游戏AI等领域。在这些动态环境中,能够有效地进行长时决策和适应变化的能力将显著提升系统的智能水平和实用价值。未来,该框架可能推动更多基于LLM的智能系统的发展,提升其在复杂任务中的表现。
📄 摘要(原文)
A central goal of large language model (LLM) research is to build agentic systems that can plan, act, and adapt through sustained interaction with dynamic environments. While recent LLM-based agents exhibit impressive contextual reasoning, their long-horizon decision-making remains fragile, often suffering from objective drift, where goals and plans drift over extended interactions. We introduce Multi$^2$, a hierarchical multi-agent decision-making framework that explicitly decomposes agent behavior into complementary roles. A high-level agent (System 1) focuses on context-aware sub-goal generation using supervised fine-tuning (SFT), while a low-level agent (System 2) executes atomic actions through offline-to-online reinforcement learning (RL) in interactive environments. This separation enables stable long-horizon control, mitigates objective drift, and allows efficient adaptation. Across diverse interactive environments, Multi$^2$ consistently outperforms strong agentic baselines, demonstrating improved robustness and coordination in multi-turn interaction. Beyond performance, we introduce and release three hierarchical benchmark datasets, filling a long-standing gap in training and evaluating hierarchical decision-making for LLM-based agents.