Look Before You Leap: Autonomous Exploration for LLM Agents

📄 arXiv: 2605.16143v1 📥 PDF

作者: Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, Fuli Feng

分类: cs.AI, cs.CL

发布日期: 2026-05-15


💡 一句话要点

提出Explore-then-Act范式,提升LLM Agent在未知环境下的自主探索能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主探索 LLM Agent 强化学习 环境交互 探索检查点覆盖率

📋 核心要点

  1. 现有基于LLM的Agent在未知环境中易于过早利用先验知识,导致性能下降,缺乏有效的自主探索能力。
  2. 提出Explore-then-Act范式,解耦信息收集与任务执行,Agent先探索环境获取知识,再利用知识完成任务。
  3. 实验表明,该方法能有效提升Agent在未知环境下的探索能力和任务完成度,验证了系统探索的重要性。

📝 摘要(中文)

基于大型语言模型的Agent在不熟悉的环境中常常由于过早利用先验知识而失败,缺乏充分的环境信息。本文将自主探索视为构建自适应Agent的关键能力,并提出“探索检查点覆盖率”这一可验证的指标,用于量化Agent发现关键状态、对象和可供性的程度。评估表明,使用标准任务导向强化学习训练的Agent表现出狭隘和重复的行为,阻碍了下游性能。为此,本文开发了一种训练策略,交替进行任务执行和探索rollout,并使用相应的可验证奖励进行优化。在此基础上,提出了Explore-then-Act范式,将信息收集与任务执行分离:Agent首先利用交互预算获取环境知识,然后利用这些知识解决任务。结果表明,系统地学习探索对于构建通用且适用于现实世界的Agent至关重要。

🔬 方法详解

问题定义:现有基于大型语言模型的Agent在不熟悉的环境中表现不佳,主要原因是它们倾向于过早地利用先验知识,而没有充分探索和理解环境。这种“过早利用”导致Agent的行为狭隘且重复,无法适应新的环境和任务。因此,需要解决的问题是如何提升Agent在未知环境下的自主探索能力,使其能够更有效地发现关键信息并做出明智的决策。

核心思路:本文的核心思路是将Agent的学习过程分解为两个阶段:探索阶段和行动阶段。在探索阶段,Agent专注于收集环境信息,学习环境的结构、对象和可供性。在行动阶段,Agent利用在探索阶段获得的知识来完成特定的任务。这种解耦的设计允许Agent在没有任务压力的情况下自由探索,从而更全面地了解环境。

技术框架:Explore-then-Act范式的整体框架包含以下几个关键模块:1) 环境交互模块:Agent与环境进行交互,收集状态、奖励等信息。2) 探索策略模块:指导Agent在探索阶段的行为,目标是最大化探索检查点覆盖率。3) 任务执行模块:利用探索阶段获得的知识,执行特定任务。4) 训练策略模块:交替进行任务执行rollout和探索rollout,并使用相应的奖励函数进行优化。

关键创新:该论文的关键创新在于提出了一种新的Agent训练范式,即Explore-then-Act。与传统的端到端强化学习方法不同,该范式将探索和行动分离,允许Agent在没有任务压力的情况下进行充分的探索。此外,论文还提出了“探索检查点覆盖率”这一可验证的指标,用于量化Agent的探索能力。

关键设计:在训练策略上,论文采用了交替rollout的方式,即一部分rollout用于任务执行,另一部分rollout用于探索。对于探索rollout,论文设计了一个基于探索检查点覆盖率的奖励函数,鼓励Agent访问不同的状态、对象和可供性。具体来说,探索检查点可以是一些预定义的关键状态或对象,Agent访问这些检查点可以获得奖励。此外,论文还可能使用了某种形式的内在奖励机制,以进一步鼓励Agent的探索行为。具体的网络结构和参数设置在论文中可能有所描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用Explore-then-Act范式的Agent在探索检查点覆盖率上显著优于传统的任务导向强化学习Agent。在下游任务中,该Agent也表现出更好的性能,表明其能够更有效地利用探索阶段获得的知识。具体的性能提升幅度和对比基线需要在论文中查找,此处未知。

🎯 应用场景

该研究成果可应用于各种需要Agent在未知环境中进行自主决策的场景,例如机器人导航、自动驾驶、游戏AI、智能家居等。通过提升Agent的探索能力,可以使其更好地适应复杂多变的环境,从而提高任务完成效率和鲁棒性。未来,该方法有望推动通用人工智能的发展,使Agent能够像人类一样在各种环境中自主学习和适应。

📄 摘要(原文)

Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.