One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
作者: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-10-14
备注: Project page: https://onelife-worldmodel.github.io/; 39 pages
💡 一句话要点
OneLife框架:从无引导探索中推断随机环境的符号世界模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 符号世界模型 强化学习 概率编程 自主探索 随机环境
📋 核心要点
- 现有符号世界建模方法依赖于确定性环境、大量数据和人工指导,难以应对复杂随机环境。
- OneLife框架通过条件激活的程序化规则建模世界动态,利用动态计算图优化推理,解决规则稀疏激活问题。
- 在Crafter-OO环境的实验表明,OneLife能从少量无引导交互中学习环境动态,并在状态排序和保真度上优于基线。
📝 摘要(中文)
符号世界建模需要将环境的转移动态推断并表示为可执行程序。先前的工作主要集中在具有大量交互数据、简单机制和人工指导的确定性环境中。本文解决了一个更现实和更具挑战性的场景,即在复杂、随机的环境中学习,智能体只有“一次生命”来探索一个充满敌意的环境,且没有人为指导。我们引入了OneLife,该框架通过概率编程框架中条件激活的程序化规则来建模世界动态。每个规则通过前提条件-效果结构运行,并在相关的世界状态中激活。这创建了一个动态计算图,仅通过相关规则路由推理和优化,避免了当所有规则都对复杂的分层状态的预测做出贡献时出现的扩展挑战,并能够在稀疏规则激活的情况下学习随机动态。为了在这些苛刻的约束下评估我们的方法,我们引入了一种新的评估协议,该协议测量(a)状态排序,即区分合理未来状态与不合理状态的能力,以及(b)状态保真度,即生成与现实非常相似的未来状态的能力。我们在Crafter-OO上开发并评估了我们的框架,Crafter-OO是我们对Crafter环境的重新实现,它公开了一个结构化的、面向对象的符号状态和一个仅对该状态进行操作的纯转移函数。OneLife可以成功地从最少的、无引导的交互中学习关键的环境动态,在测试的23个场景中的16个场景中优于强大的基线。我们还测试了OneLife的规划能力,通过模拟rollout成功地识别出更优的策略。我们的工作为自主构建未知复杂环境的程序化世界模型奠定了基础。
🔬 方法详解
问题定义:现有的符号世界建模方法在处理复杂、随机的环境时面临挑战。这些方法通常依赖于大量的交互数据、简单的环境机制以及人工指导。在智能体只有一次机会探索未知环境的情况下,如何有效地学习环境的动态特性是一个关键问题。现有方法难以处理规则激活稀疏的情况,导致学习效率低下。
核心思路:OneLife的核心思路是通过条件激活的程序化规则来建模世界动态。每个规则都包含一个前提条件和一个效果,只有当满足前提条件时,规则才会激活并产生相应的效果。这种设计使得模型能够专注于相关的规则,避免了不必要的计算,提高了学习效率。同时,OneLife采用概率编程框架,能够处理环境中的随机性。
技术框架:OneLife框架包含以下几个主要模块:1) 状态表示:使用结构化的、面向对象的符号状态来表示环境。2) 规则学习:通过观察环境中的交互数据,学习程序化的规则。每个规则包含一个前提条件和一个效果。3) 动态计算图:根据当前的状态,动态地构建计算图,只包含相关的规则。4) 推理和优化:通过概率编程框架,对模型进行推理和优化。
关键创新:OneLife的关键创新在于其条件激活的程序化规则和动态计算图的设计。这种设计使得模型能够有效地处理复杂、随机的环境,并且能够从少量的数据中学习。与现有方法相比,OneLife能够更好地处理规则激活稀疏的情况,提高了学习效率。
关键设计:OneLife使用前提条件-效果结构来表示规则。前提条件是一个逻辑表达式,用于判断规则是否应该激活。效果描述了规则激活后对环境状态的影响。模型使用概率编程框架来学习规则的参数,例如前提条件的权重和效果的概率分布。损失函数包括状态预测误差和规则激活的正则化项。
🖼️ 关键图片
📊 实验亮点
OneLife在Crafter-OO环境中进行了评估,结果表明其在16/23个测试场景中优于强大的基线方法。在状态排序和状态保真度两个指标上,OneLife均取得了显著的提升。此外,通过模拟rollout,OneLife成功识别出更优的策略,验证了其规划能力。这些实验结果表明,OneLife能够有效地从少量无引导交互中学习环境动态。
🎯 应用场景
OneLife框架具有广泛的应用前景,例如在机器人自主探索、游戏AI开发、以及复杂系统的建模与仿真等领域。该框架能够帮助智能体在未知环境中自主学习,并构建环境的动态模型,从而实现更智能的决策和规划。未来,OneLife有望应用于自动驾驶、智能制造等领域,提升系统的自主性和适应性。
📄 摘要(原文)
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.