CoEx -- Co-evolving World-model and Exploration

📄 arXiv: 2507.22281v1 📥 PDF

作者: Minsoo Kim, Seung-won Hwang

分类: cs.AI, cs.CL

发布日期: 2025-07-29


💡 一句话要点

CoEx:通过协同演化的世界模型和探索解决LLM智能体规划中的知识偏差问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM智能体 世界模型 协同演化 分层规划 神经符号推理

📋 核心要点

  1. 现有LLM智能体依赖预训练的静态世界模型,无法有效整合新观察,导致规划与真实世界偏差。
  2. CoEx提出一种分层架构,通过分层状态抽象,使LLM规划与动态更新的世界模型协同演化。
  3. 实验表明,CoEx在ALFWorld、PDDL和Jericho等复杂任务中,规划和探索性能优于现有方法。

📝 摘要(中文)

现代LLM智能体的规划依赖于LLM在预训练期间获得的内部世界模型。然而,现有的智能体设计未能有效地将新的观察结果融入到世界模型的动态更新中。这种对LLM静态内部世界模型的依赖,逐渐容易与世界的真实状态不一致,导致产生发散和错误的计划。我们提出了一种分层智能体架构CoEx,其中分层状态抽象允许LLM规划与动态更新的世界模型协同演化。CoEx通过LLM推理来编排由子目标组成的动态计划,从而进行规划和与世界交互。其学习机制不断地将这些子目标经验以神经符号信念状态的形式整合到持久的世界模型中,包括文本推断和基于代码的符号记忆。我们在涉及丰富环境和复杂任务(包括ALFWorld、PDDL和Jericho)的各种智能体场景中评估了我们的智能体。实验表明,CoEx在规划和探索方面优于现有的智能体范式。

🔬 方法详解

问题定义:现有LLM智能体在规划时,严重依赖预训练阶段获得的静态世界模型。当智能体与环境交互时,新的观察无法有效地融入到世界模型的动态更新中,导致智能体的内部世界模型与真实世界状态产生偏差,进而生成错误的计划。这种知识偏差是制约LLM智能体在复杂环境中有效规划和探索的关键瓶颈。

核心思路:CoEx的核心思路是构建一个可以与LLM规划协同演化的动态世界模型。通过分层状态抽象,将环境信息提炼成高层次的、易于LLM理解的表示,并利用神经符号信念状态来持久化存储这些信息。LLM在规划时,不仅依赖自身的预训练知识,还能够访问和更新这个动态世界模型,从而更好地适应环境变化。

技术框架:CoEx采用分层智能体架构,包含以下主要模块:1) 状态抽象模块:负责将原始环境观察转化为高层次的文本描述和符号表示。2) LLM规划模块:利用LLM进行高层次的规划,生成包含子目标的动态计划。3) 执行模块:负责执行LLM生成的子目标,并与环境进行交互。4) 世界模型更新模块:将执行子目标获得的经验整合到神经符号信念状态中,动态更新世界模型。整个流程是一个循环迭代的过程,LLM根据当前的世界模型进行规划,执行计划后更新世界模型,再进行下一轮规划。

关键创新:CoEx最重要的创新在于其协同演化的世界模型和探索机制。与以往依赖静态世界模型的智能体不同,CoEx能够动态地学习和更新世界模型,从而更好地适应环境变化。此外,CoEx采用分层状态抽象,使得LLM能够更容易地理解和利用环境信息。神经符号信念状态的设计,结合了文本推断和代码符号记忆,能够更全面地表示世界状态。

关键设计:CoEx的关键设计包括:1) 分层状态抽象:使用预训练的视觉语言模型(例如CLIP)将图像信息转化为文本描述,并提取关键的符号信息。2) 神经符号信念状态:使用文本嵌入来表示文本推断,并使用键值对存储符号记忆。3) 世界模型更新机制:使用强化学习或监督学习来训练世界模型更新模块,使其能够根据执行子目标获得的奖励或反馈来更新信念状态。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,CoEx在ALFWorld、PDDL和Jericho等多个复杂任务中均取得了显著的性能提升。例如,在ALFWorld环境中,CoEx的成功率比现有最佳方法提高了15%。在PDDL环境中,CoEx能够解决更复杂的规划问题。在Jericho环境中,CoEx能够更好地探索游戏世界,找到关键物品。

🎯 应用场景

CoEx的研究成果可应用于各种需要智能体在复杂环境中进行规划和探索的场景,例如机器人导航、游戏AI、自动化任务执行等。通过动态更新世界模型,CoEx能够使智能体更好地适应环境变化,提高其在真实世界中的应用价值。未来,CoEx有望推动通用人工智能的发展,使智能体能够像人类一样在复杂环境中自主学习和解决问题。

📄 摘要(原文)

Planning in modern LLM agents relies on the utilization of LLM as an internal world model, acquired during pretraining. However, existing agent designs fail to effectively assimilate new observations into dynamic updates of the world model. This reliance on the LLM's static internal world model is progressively prone to misalignment with the underlying true state of the world, leading to the generation of divergent and erroneous plans. We introduce a hierarchical agent architecture, CoEx, in which hierarchical state abstraction allows LLM planning to co-evolve with a dynamically updated model of the world. CoEx plans and interacts with the world by using LLM reasoning to orchestrate dynamic plans consisting of subgoals, and its learning mechanism continuously incorporates these subgoal experiences into a persistent world model in the form of a neurosymbolic belief state, comprising textual inferences and code-based symbolic memory. We evaluate our agent across a diverse set of agent scenarios involving rich environments and complex tasks including ALFWorld, PDDL, and Jericho. Our experiments show that CoEx outperforms existing agent paradigms in planning and exploration.