PriorZero: Bridging Language Priors and World Models for Decision Making
作者: Junyu Xiong, Yuan Pu, Jia Tang, Yazhe Niu
分类: cs.LG, cs.AI
发布日期: 2026-05-12
备注: 30 pages, 12 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出PriorZero以解决LLM与RL之间的动态不匹配问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 世界模型 决策规划 蒙特卡洛树搜索 探索效率 信用分配
📋 核心要点
- 现有方法中,静态的LLM知识无法适应复杂的环境动态,导致探索多样性不足。
- PriorZero通过将LLM派生的先验融入世界模型规划,采用解耦的回滚训练设计来解决这一问题。
- 在多项基准测试中,PriorZero显著提高了探索效率和最终性能,展示了其有效性。
📝 摘要(中文)
利用大型语言模型(LLMs)的丰富世界知识来增强强化学习(RL)代理是实现通用智能的有前景路径。然而,现有方法面临的一个基本问题是静态LLM知识无法直接适应复杂的长时间任务转移动态。PriorZero是一个统一框架,通过解耦的回滚训练设计,将LLM派生的概念先验融入基于世界模型的规划。在回滚过程中,创新的根先验注入机制仅在蒙特卡洛树搜索(MCTS)的根节点引入LLM先验,专注于语义上有前景的动作,同时保留世界模型的深度前瞻能力。实验表明,PriorZero在多种基准测试中持续提高了探索效率和渐近性能,建立了一个有前景的LLM赋能决策框架。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)与强化学习(RL)代理之间的动态不匹配问题。现有方法依赖静态LLM知识,导致探索多样性不足和优化不稳定。
核心思路:PriorZero的核心思想是将LLM派生的概念先验有效整合到基于世界模型的规划中,通过解耦回滚训练设计,提升RL代理的决策能力。
技术框架:PriorZero的整体架构包括两个主要模块:回滚阶段和训练阶段。在回滚阶段,根先验注入机制在MCTS的根节点引入LLM先验;在训练阶段,世界模型在交互数据上不断优化,以改进其动态、策略和价值预测。
关键创新:PriorZero的关键创新在于根先验注入机制和解耦的训练设计。这一设计使得LLM先验能够专注于语义上有前景的动作,同时保持世界模型的深度前瞻能力。
关键设计:在参数设置上,PriorZero采用交替优化策略,确保世界模型的动态、策略和价值预测的稳定性。损失函数设计上,结合了价值估计和信用分配信号,以实现LLM的稳定微调。具体的网络结构和参数设置在实验中进行了详细验证。
🖼️ 关键图片
📊 实验亮点
在多项基准测试中,PriorZero在探索效率和渐近性能上均表现出显著提升。例如,在文本冒险游戏和指令跟随网格世界任务中,PriorZero的表现超越了现有基线,展示了其在复杂任务中的有效性和稳定性。
🎯 应用场景
PriorZero的研究成果在多个领域具有潜在应用价值,包括智能游戏代理、机器人决策系统和自动化任务规划等。通过有效整合语言模型与强化学习,能够提升智能体在复杂环境中的决策能力,推动智能系统的进一步发展。
📄 摘要(原文)
Leveraging the rich world knowledge of Large Language Models (LLMs) to enhance Reinforcement Learning (RL) agents offers a promising path toward general intelligence. However, a fundamental prior-dynamics mismatch hinders existing approaches: static LLM knowledge cannot directly adapt to the complex transition dynamics of long-horizon tasks. Using LLM priors as fixed policies limits exploration diversity, as the prior is blind to environment-specific dynamics; while end-to-end fine-tuning suffers from optimization instability and credit assignment issues. To bridge this gap, we propose PriorZero, a unified framework that integrates LLM-derived conceptual priors into world-model-based planning through a decoupled rollout-training design. During rollout, a novel root-prior injection mechanism incorporates LLM priors exclusively at the root node of Monte Carlo Tree Search (MCTS), focusing search on semantically promising actions while preserving the world model's deep lookahead capability. During training, PriorZero decouples world-model learning from LLM adaptation: the world model is continuously refined on interaction data to jointly improve its dynamics, policy, and value predictions, its value estimates are then leveraged to provide fine-grained credit assignment signals for stable LLM fine-tuning via alternating optimization. Experiments across diverse benchmarks, including text-based adventure games in Jericho and instruction-following gridworld tasks in BabyAI, demonstrate that PriorZero consistently improves both exploration efficiency and asymptotic performance, establishing a promising framework for LLM-empowered decision-making. Our code is available at https://github.com/opendilab/LightZero.