Dual-Scale World Models for LLM Agents Towards Hard-Exploration Problems

📄 arXiv: 2509.24116v2 📥 PDF

作者: Minsoo Kim, Seung-won Hwang

分类: cs.CL

发布日期: 2025-09-28 (更新: 2025-09-30)


💡 一句话要点

提出GLoW,利用双尺度世界模型解决LLM Agent在复杂探索任务中的难题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM Agent 复杂探索 世界模型 强化学习 文本游戏

📋 核心要点

  1. 现有LLM Agent在复杂探索任务中面临挑战,难以通过试错学习新知识。
  2. GLoW利用双尺度世界模型,结合全局轨迹前沿和局部优势反思机制指导探索。
  3. 在Jericho文本游戏中,GLoW达到SOTA,且环境交互次数远少于传统RL方法。

📝 摘要(中文)

基于LLM的Agent取得了显著进展,但在需要通过探索学习新知识的“复杂探索”任务中仍然存在局限性。本文提出GLoW,一种利用双尺度世界模型的新方法,在全球尺度上维护高价值发现的轨迹前沿,并通过多路径优势反思机制从局部试错探索中学习,该机制推断基于优势的进度信号以指导探索。为了评估我们的框架在复杂探索方面的能力,我们解决了Jericho文本游戏基准测试,GLoW在该基准测试中实现了基于LLM方法的最新性能。与最先进的基于RL的方法相比,我们的方法实现了相当的性能,同时需要的环境交互次数减少了100-800倍。

🔬 方法详解

问题定义:论文旨在解决LLM Agent在“hard-exploration”任务中的不足,即Agent难以通过与环境的交互,自主发现并学习新的知识。现有方法通常需要大量的环境交互,效率低下,且难以有效引导Agent探索未知的状态空间。

核心思路:GLoW的核心思路是利用双尺度世界模型,将探索过程分解为全局和局部两个层面。全局层面维护一个高价值发现的轨迹前沿,引导Agent关注有潜力的区域;局部层面则通过试错学习,并利用优势反思机制评估探索的进度,从而更有效地进行探索。

技术框架:GLoW框架包含以下主要模块:1) 全局世界模型:维护一个轨迹前沿,记录Agent探索过程中发现的高价值状态。2) 局部世界模型:基于Agent的局部交互经验进行学习,预测环境的动态变化。3) 多路径优势反思机制:通过比较不同探索路径的收益,推断基于优势的进度信号,用于指导Agent的探索方向。Agent根据全局世界模型选择探索区域,然后在局部区域进行试错,并通过多路径优势反思机制学习,不断更新全局和局部世界模型。

关键创新:GLoW的关键创新在于双尺度世界模型和多路径优势反思机制的结合。双尺度模型能够兼顾全局探索和局部学习,提高探索效率。多路径优势反思机制则能够有效地评估探索的进度,避免Agent陷入局部最优。与现有方法相比,GLoW不需要大量的环境交互,就能够实现较好的探索效果。

关键设计:论文中未明确给出关键参数设置、损失函数、网络结构等技术细节,这些信息可能在补充材料或后续工作中给出。优势反思机制的具体实现方式,以及全局和局部世界模型的表示方法,是影响GLoW性能的关键设计因素。具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

GLoW在Jericho文本游戏基准测试中取得了基于LLM方法的最新性能,证明了其在复杂探索任务中的有效性。更重要的是,与最先进的基于RL的方法相比,GLoW在实现相当性能的同时,需要的环境交互次数减少了100-800倍,显著提高了探索效率。

🎯 应用场景

该研究成果可应用于各种需要智能体自主探索和学习的环境,例如游戏AI、机器人导航、自动化科学发现等。通过减少环境交互次数,降低了训练成本,加速了智能体的学习过程。未来可应用于更复杂的现实世界场景,例如自动驾驶、智能制造等。

📄 摘要(原文)

LLM-based agents have seen promising advances, yet they are still limited in "hard-exploration" tasks requiring learning new knowledge through exploration. We present GLoW, a novel approach leveraging dual-scale world models, maintaining a trajectory frontier of high-value discoveries at the global scale, while learning from local trial-and-error in exploration through a Multi-path Advantage Reflection mechanism which infers advantage-based progress signals to guide exploration. To evaluate our framework for hard-exploration, we tackle the Jericho benchmark suite of text-based games, where GLoW achieves a new state-of-theart performance for LLM-based approaches. Compared to state-of-the-art RLbased methods, our approach achieves comparable performance while requiring 100-800x fewer environment interactions.