MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

作者: Yuxin Liu, Ziang Ye, Yueqing Sun, Mingye Zhu, Jinwei Xiao, Zhuowen Han, Qi GU, Xunliang Cai, Lei Zhang

分类: cs.AI

发布日期: 2026-05-13

💡 一句话要点

提出MAP框架，解决交互式Agent长程推理中环境理解不足的问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 交互式Agent 长程推理 环境理解 认知地图 强化学习

📋 核心要点

现有交互式Agent在执行过程中被动感知环境，导致试错成本高，效率低下。
MAP框架通过全局探索、任务映射和知识增强执行三个阶段，提前构建环境认知地图。
实验表明，MAP在多个基准测试中显著提升Agent性能，尤其在复杂环境中效果突出。

📝 摘要（中文）

现有的交互式LLM Agent依赖于目标条件下的逐步规划，在执行过程中被动地获取环境理解，而不是预先建立环境理解。这种时间上的倒置导致了延迟环境感知问题：Agent必须通过试错来推断环境约束，从而陷入认知瓶颈，导致低效的失败循环。受到人类可供性感知和认知地图理论的启发，我们提出了Map-then-Act Paradigm (MAP)，一个即插即用的框架，将环境理解转移到执行之前。MAP包括三个阶段：（1）全局探索，获取环境通用先验知识；（2）任务特定映射，构建结构化的认知地图；（3）知识增强执行，基于地图解决任务。实验表明，在多个基准测试和LLM上都获得了持续的收益。在ARC-AGI-3上，MAP使前沿模型在25个游戏环境中的22个中超越了接近于零的基线性能。我们进一步引入了MAP-2K，一个map-then-act轨迹数据集，并表明训练该数据集优于专家执行轨迹，这表明理解环境比模仿更根本。

🔬 方法详解

问题定义：现有交互式Agent在长程推理任务中，依赖于目标条件下的逐步规划，在执行过程中被动地获取环境信息。这种“先行动后感知”的模式导致Agent需要通过大量的试错来学习环境约束，效率低下，容易陷入失败循环，难以完成复杂任务。

核心思路：受到人类认知地图理论的启发，论文提出“先映射后行动”（Map-then-Act）的范式。核心思想是将环境理解从执行过程中提前到执行之前，通过构建环境的认知地图，使Agent在行动前对环境有充分的了解，从而避免盲目探索和无效尝试。

技术框架：MAP框架包含三个主要阶段：1) 全局探索（Global Exploration）：Agent在环境中进行全局探索，学习环境的通用先验知识。2) 任务特定映射（Task-Specific Mapping）：根据特定任务，Agent构建结构化的认知地图，例如，识别关键对象、位置关系和可供性信息。3) 知识增强执行（Knowledge-Augmented Execution）：Agent基于构建的认知地图，进行知识增强的决策和行动，从而高效地完成任务。

关键创新：MAP框架的关键创新在于改变了Agent与环境交互的模式，从“被动感知”转变为“主动构建认知地图”。这种转变使得Agent能够更好地理解环境，从而做出更明智的决策。此外，MAP框架是一个即插即用的模块，可以方便地集成到现有的LLM Agent中。

关键设计：MAP框架的具体实现细节取决于具体的任务和环境。例如，在全局探索阶段，可以使用强化学习或主动探索策略来引导Agent探索环境。在任务特定映射阶段，可以使用视觉识别、语义分割等技术来识别环境中的关键对象和关系。在知识增强执行阶段，可以使用图神经网络或知识图谱来表示认知地图，并利用推理算法来生成行动计划。论文还提出了MAP-2K数据集，包含map-then-act轨迹，用于训练Agent学习环境理解能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MAP框架在ARC-AGI-3基准测试中取得了显著的性能提升。在25个游戏环境中，MAP使前沿模型在22个环境中超越了接近于零的基线性能。此外，使用MAP-2K数据集训练的Agent优于使用专家执行轨迹训练的Agent，这进一步验证了环境理解的重要性。

🎯 应用场景

MAP框架具有广泛的应用前景，可应用于机器人导航、游戏AI、智能家居等领域。通过提前构建环境认知地图，Agent可以更好地理解环境，从而实现更高效、更智能的交互。该研究有望推动交互式Agent在复杂环境中的应用，并为通用人工智能的发展提供新的思路。

📄 摘要（原文）

Current interactive LLM agents rely on goal-conditioned stepwise planning, where environmental understanding is acquired reactively during execution rather than established beforehand. This temporal inversion leads to Delayed Environmental Perception: agents must infer environmental constraints through trial-and-error, resulting in an Epistemic Bottleneck that traps them in inefficient failure cycles. Inspired by human affordance perception and cognitive map theory, we propose the Map-then-Act Paradigm (MAP), a plug-and-play framework that shifts environment understanding before execution. MAP consists of three stages: (1) Global Exploration, acquiring environment-general priors; (2) Task-Specific Mapping, constructing a structured cognitive map; and (3) Knowledge-Augmented Execution, solving tasks grounded on the map. Experiments show consistent gains across benchmarks and LLMs. On ARC-AGI-3, MAP enables frontier models to surpass near-zero baseline performance in 22 of 25 game environments. We further introduce MAP-2K, a dataset of map-then-act trajectories, and show that training on it outperforms expert execution traces, suggesting that understanding environments is more fundamental than imitation.

MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理