MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

📄 arXiv: 2605.13037v1 📥 PDF

作者: Yuxin Liu, Ziang Ye, Yueqing Sun, Mingye Zhu, Jinwei Xiao, Zhuowen Han, Qi GU, Xunliang Cai, Lei Zhang

分类: cs.AI

发布日期: 2026-05-13


💡 一句话要点

提出MAP框架,解决交互式Agent长程推理中环境理解不足的问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 交互式Agent 长程推理 环境理解 认知地图 强化学习

📋 核心要点

  1. 现有交互式Agent在执行过程中被动感知环境,导致试错成本高,效率低下。
  2. MAP框架通过全局探索、任务映射和知识增强执行三个阶段,提前构建环境认知地图。
  3. 实验表明,MAP在多个基准测试中显著提升Agent性能,尤其在复杂环境中效果突出。

📝 摘要(中文)

现有的交互式LLM Agent依赖于目标条件下的逐步规划,在执行过程中被动地获取环境理解,而不是预先建立环境理解。这种时间上的倒置导致了延迟环境感知问题:Agent必须通过试错来推断环境约束,从而陷入认知瓶颈,导致低效的失败循环。受到人类可供性感知和认知地图理论的启发,我们提出了Map-then-Act Paradigm (MAP),一个即插即用的框架,将环境理解转移到执行之前。MAP包括三个阶段:(1)全局探索,获取环境通用先验知识;(2)任务特定映射,构建结构化的认知地图;(3)知识增强执行,基于地图解决任务。实验表明,在多个基准测试和LLM上都获得了持续的收益。在ARC-AGI-3上,MAP使前沿模型在25个游戏环境中的22个中超越了接近于零的基线性能。我们进一步引入了MAP-2K,一个map-then-act轨迹数据集,并表明训练该数据集优于专家执行轨迹,这表明理解环境比模仿更根本。

🔬 方法详解

问题定义:现有交互式Agent在长程推理任务中,依赖于目标条件下的逐步规划,在执行过程中被动地获取环境信息。这种“先行动后感知”的模式导致Agent需要通过大量的试错来学习环境约束,效率低下,容易陷入失败循环,难以完成复杂任务。

核心思路:受到人类认知地图理论的启发,论文提出“先映射后行动”(Map-then-Act)的范式。核心思想是将环境理解从执行过程中提前到执行之前,通过构建环境的认知地图,使Agent在行动前对环境有充分的了解,从而避免盲目探索和无效尝试。

技术框架:MAP框架包含三个主要阶段:1) 全局探索(Global Exploration):Agent在环境中进行全局探索,学习环境的通用先验知识。2) 任务特定映射(Task-Specific Mapping):根据特定任务,Agent构建结构化的认知地图,例如,识别关键对象、位置关系和可供性信息。3) 知识增强执行(Knowledge-Augmented Execution):Agent基于构建的认知地图,进行知识增强的决策和行动,从而高效地完成任务。

关键创新:MAP框架的关键创新在于改变了Agent与环境交互的模式,从“被动感知”转变为“主动构建认知地图”。这种转变使得Agent能够更好地理解环境,从而做出更明智的决策。此外,MAP框架是一个即插即用的模块,可以方便地集成到现有的LLM Agent中。

关键设计:MAP框架的具体实现细节取决于具体的任务和环境。例如,在全局探索阶段,可以使用强化学习或主动探索策略来引导Agent探索环境。在任务特定映射阶段,可以使用视觉识别、语义分割等技术来识别环境中的关键对象和关系。在知识增强执行阶段,可以使用图神经网络或知识图谱来表示认知地图,并利用推理算法来生成行动计划。论文还提出了MAP-2K数据集,包含map-then-act轨迹,用于训练Agent学习环境理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAP框架在ARC-AGI-3基准测试中取得了显著的性能提升。在25个游戏环境中,MAP使前沿模型在22个环境中超越了接近于零的基线性能。此外,使用MAP-2K数据集训练的Agent优于使用专家执行轨迹训练的Agent,这进一步验证了环境理解的重要性。

🎯 应用场景

MAP框架具有广泛的应用前景,可应用于机器人导航、游戏AI、智能家居等领域。通过提前构建环境认知地图,Agent可以更好地理解环境,从而实现更高效、更智能的交互。该研究有望推动交互式Agent在复杂环境中的应用,并为通用人工智能的发展提供新的思路。

📄 摘要(原文)

Current interactive LLM agents rely on goal-conditioned stepwise planning, where environmental understanding is acquired reactively during execution rather than established beforehand. This temporal inversion leads to Delayed Environmental Perception: agents must infer environmental constraints through trial-and-error, resulting in an Epistemic Bottleneck that traps them in inefficient failure cycles. Inspired by human affordance perception and cognitive map theory, we propose the Map-then-Act Paradigm (MAP), a plug-and-play framework that shifts environment understanding before execution. MAP consists of three stages: (1) Global Exploration, acquiring environment-general priors; (2) Task-Specific Mapping, constructing a structured cognitive map; and (3) Knowledge-Augmented Execution, solving tasks grounded on the map. Experiments show consistent gains across benchmarks and LLMs. On ARC-AGI-3, MAP enables frontier models to surpass near-zero baseline performance in 22 of 25 game environments. We further introduce MAP-2K, a dataset of map-then-act trajectories, and show that training on it outperforms expert execution traces, suggesting that understanding environments is more fundamental than imitation.