Learning POMDP World Models from Observations with Language-Model Priors
作者: Valentin Six, Frederik Panse, Mathis Fajeau, Lancelot Da Costa, Mridul Sharma, Alfonso Amayuelas, Tim Z. Xiao, David Hyland, Philipp Hennig, Bernhard Schölkopf
分类: cs.LG
发布日期: 2026-05-13
🔗 代码/项目: GITHUB
💡 一句话要点
Pinductor:利用语言模型先验知识,高效学习部分可观测马尔可夫决策过程世界模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: POMDP 世界模型 语言模型 强化学习 部分可观测性
📋 核心要点
- 现有方法在仅通过观察-动作轨迹学习POMDP世界模型时,样本效率低,需要大量环境交互。
- Pinductor利用语言模型先验知识,从少量轨迹中提出候选模型并迭代优化,减少了对大量交互数据的依赖。
- 实验表明,Pinductor在样本效率上优于传统POMDP方法,并能与利用隐藏状态信息的LLM方法媲美。
📝 摘要(中文)
为了在环境中有效行动,智能体必须学习环境的内部模型。部分可观测马尔可夫决策过程(POMDPs)为此提供了一种灵活的建模方式,但仅从观察-动作轨迹中学习它们极具挑战,通常需要大量的环境交互。本文探讨了语言模型先验知识是否可以通过利用先验知识来减少昂贵的交互,并提出了Pinductor(POMDP-inductor):一个LLM从少量的观察-动作轨迹中提出候选POMDP模型,并迭代地改进它们以优化基于置信度的似然得分。尽管使用的信息严格减少,Pinductor在假设可以访问隐藏状态的基于LLM的POMDP学习方法的性能和样本效率方面表现相当,同时显著超过了表格型POMDP基线的样本效率。进一步的结果表明,性能随LLM能力而扩展,并且随着关于环境的语义信息被隐瞒而优雅地降低。总之,这些结果将语言模型先验知识定位为在部分可观测性下进行样本高效世界模型学习的实用工具,以及迈向现实世界环境中通用智能体的一步。
🔬 方法详解
问题定义:论文旨在解决在部分可观测环境下,如何高效地学习POMDP世界模型的问题。现有方法,尤其是传统的表格型POMDP学习方法,需要大量的样本数据才能学习到有效的模型,这在实际应用中是不可接受的。即使是基于LLM的方法,也通常需要访问隐藏状态,这在许多实际场景中是不现实的。
核心思路:论文的核心思路是利用语言模型(LLM)的先验知识来指导POMDP模型的学习过程。LLM可以从少量观察-动作轨迹中推断出环境的潜在结构和规则,从而提出合理的候选POMDP模型。然后,通过迭代优化这些候选模型,使其更好地拟合观察数据,最终得到一个有效的世界模型。这种方法减少了对大量样本数据的需求,提高了学习效率。
技术框架:Pinductor的整体框架包含以下几个主要阶段: 1. LLM提议阶段:给定少量观察-动作轨迹,LLM生成一组候选POMDP模型,每个模型包括状态空间、观测空间、转移概率和观测概率。 2. 置信度更新阶段:使用贝叶斯滤波,根据观察-动作序列更新每个候选模型的置信度。 3. 似然度优化阶段:计算每个候选模型在给定轨迹下的似然度,并使用优化算法(如梯度下降)调整模型参数,以最大化似然度。 4. 模型选择阶段:选择具有最高置信度的模型作为最终的POMDP世界模型。
关键创新:Pinductor的关键创新在于将语言模型作为POMDP学习的先验知识来源。与传统的POMDP学习方法相比,Pinductor不需要从头开始学习,而是利用LLM的知识来缩小搜索空间,从而显著提高了样本效率。此外,Pinductor不需要访问隐藏状态,使其更适用于实际应用场景。
关键设计: * LLM的选择:论文使用了预训练的语言模型,并对其进行了微调,以更好地适应POMDP建模任务。 * 置信度更新:使用贝叶斯滤波来更新每个候选模型的置信度,这是一种标准的概率推理方法。 * 似然度计算:使用前向算法来计算每个候选模型在给定轨迹下的似然度。 * 优化算法:使用Adam优化器来调整模型参数,以最大化似然度。
📊 实验亮点
实验结果表明,Pinductor在样本效率上显著优于传统的表格型POMDP学习方法。例如,在某个实验环境中,Pinductor仅使用少量样本就达到了与表格型方法使用大量样本才能达到的性能水平。此外,Pinductor的性能与基于LLM且可以访问隐藏状态的方法相当,这表明Pinductor能够有效地利用语言模型先验知识来弥补部分可观测性带来的信息缺失。
🎯 应用场景
Pinductor具有广泛的应用前景,例如机器人导航、游戏AI、智能对话系统等。在机器人导航中,机器人可以利用Pinductor学习环境的POMDP模型,从而更好地规划路径和避免障碍物。在游戏AI中,AI智能体可以利用Pinductor学习游戏规则和对手的行为模式,从而制定更有效的策略。在智能对话系统中,对话系统可以利用Pinductor学习用户的意图和对话上下文,从而提供更个性化的服务。
📄 摘要(原文)
Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce \emph{Pinductor} (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, \emph{Pinductor} matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.