Dual-Scale World Models for LLM Agents Towards Hard-Exploration Problems

作者: Minsoo Kim, Seung-won Hwang

分类: cs.CL

发布日期: 2025-09-28 (更新: 2025-09-30)

💡 一句话要点

提出GLoW，利用双尺度世界模型解决LLM Agent在复杂探索任务中的难题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: LLM Agent 复杂探索 世界模型 强化学习 文本游戏

📋 核心要点

现有LLM Agent在复杂探索任务中面临挑战，难以通过试错学习新知识。
GLoW利用双尺度世界模型，结合全局轨迹前沿和局部优势反思机制指导探索。
在Jericho文本游戏中，GLoW达到SOTA，且环境交互次数远少于传统RL方法。

📝 摘要（中文）

基于LLM的Agent取得了显著进展，但在需要通过探索学习新知识的“复杂探索”任务中仍然存在局限性。本文提出GLoW，一种利用双尺度世界模型的新方法，在全球尺度上维护高价值发现的轨迹前沿，并通过多路径优势反思机制从局部试错探索中学习，该机制推断基于优势的进度信号以指导探索。为了评估我们的框架在复杂探索方面的能力，我们解决了Jericho文本游戏基准测试，GLoW在该基准测试中实现了基于LLM方法的最新性能。与最先进的基于RL的方法相比，我们的方法实现了相当的性能，同时需要的环境交互次数减少了100-800倍。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在“hard-exploration”任务中的不足，即Agent难以通过与环境的交互，自主发现并学习新的知识。现有方法通常需要大量的环境交互，效率低下，且难以有效引导Agent探索未知的状态空间。

核心思路：GLoW的核心思路是利用双尺度世界模型，将探索过程分解为全局和局部两个层面。全局层面维护一个高价值发现的轨迹前沿，引导Agent关注有潜力的区域；局部层面则通过试错学习，并利用优势反思机制评估探索的进度，从而更有效地进行探索。

技术框架：GLoW框架包含以下主要模块：1) 全局世界模型：维护一个轨迹前沿，记录Agent探索过程中发现的高价值状态。2) 局部世界模型：基于Agent的局部交互经验进行学习，预测环境的动态变化。3) 多路径优势反思机制：通过比较不同探索路径的收益，推断基于优势的进度信号，用于指导Agent的探索方向。Agent根据全局世界模型选择探索区域，然后在局部区域进行试错，并通过多路径优势反思机制学习，不断更新全局和局部世界模型。

关键创新：GLoW的关键创新在于双尺度世界模型和多路径优势反思机制的结合。双尺度模型能够兼顾全局探索和局部学习，提高探索效率。多路径优势反思机制则能够有效地评估探索的进度，避免Agent陷入局部最优。与现有方法相比，GLoW不需要大量的环境交互，就能够实现较好的探索效果。

关键设计：论文中未明确给出关键参数设置、损失函数、网络结构等技术细节，这些信息可能在补充材料或后续工作中给出。优势反思机制的具体实现方式，以及全局和局部世界模型的表示方法，是影响GLoW性能的关键设计因素。具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

GLoW在Jericho文本游戏基准测试中取得了基于LLM方法的最新性能，证明了其在复杂探索任务中的有效性。更重要的是，与最先进的基于RL的方法相比，GLoW在实现相当性能的同时，需要的环境交互次数减少了100-800倍，显著提高了探索效率。

🎯 应用场景

该研究成果可应用于各种需要智能体自主探索和学习的环境，例如游戏AI、机器人导航、自动化科学发现等。通过减少环境交互次数，降低了训练成本，加速了智能体的学习过程。未来可应用于更复杂的现实世界场景，例如自动驾驶、智能制造等。

📄 摘要（原文）

LLM-based agents have seen promising advances, yet they are still limited in "hard-exploration" tasks requiring learning new knowledge through exploration. We present GLoW, a novel approach leveraging dual-scale world models, maintaining a trajectory frontier of high-value discoveries at the global scale, while learning from local trial-and-error in exploration through a Multi-path Advantage Reflection mechanism which infers advantage-based progress signals to guide exploration. To evaluate our framework for hard-exploration, we tackle the Jericho benchmark suite of text-based games, where GLoW achieves a new state-of-theart performance for LLM-based approaches. Compared to state-of-the-art RLbased methods, our approach achieves comparable performance while requiring 100-800x fewer environment interactions.

Dual-Scale World Models for LLM Agents Towards Hard-Exploration Problems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理