PatchWorld: Gradient-Free Optimization of Executable World Models
作者: Jiaxin Bai, Yue Guo, Yifei Dong, Jiaxuan Xiong, Tianshi Zheng, Yixia Li, Tianqing Fang, Yufei Li, Yisen Gao, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Zihao Wang, Lihui Liu, Jeff Pan, Yangqiu Song
分类: cs.CL, cs.AI
发布日期: 2026-05-29
备注: 40 pages
🔗 代码/项目: GITHUB
💡 一句话要点
PatchWorld:通过无梯度优化可执行世界模型,提升文本智能体环境中的规划能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 文本智能体 代码修复 无梯度优化 可执行模型
📋 核心要点
- 文本智能体环境通常建模为部分可观测马尔可夫决策过程(POMDP),模拟器的潜在状态和转移动态对智能体隐藏,现有方法难以有效利用。
- PatchWorld通过反例引导的代码修复,将离线轨迹转化为可执行的Python世界模型,实现可检查、可重放和局部修补的符号信念状态程序。
- 实验表明,PatchWorld-Simple在AgentGym环境中取得了最高的基于代码的规划分数,并在实时单步前瞻中达到了显著的宏成功率。
📝 摘要(中文)
本文提出PatchWorld,一个无梯度框架,通过反例引导的代码修复将离线轨迹转化为可执行的Python世界模型。与使用黑盒模型预测下一个观测不同,PatchWorld诱导符号信念状态程序,其动作更新可以被检查、重放和局部修补。在七个AgentGym环境中,PatchWorld-Simple在评估方法中实现了最高的基于代码的规划分数,在实时单步前瞻中达到了76.4%的宏成功率,且世界模型预测模块本身不调用LLM。研究还发现,人工指定的残差记忆偏差提高了表面观测的保真度,但削弱了决策效用。这揭示了可执行世界模型中的一种权衡,因为提高观测保真度可能会以牺牲动作区分动态为代价,反之亦然。代码已开源。
🔬 方法详解
问题定义:现有文本智能体环境通常建模为POMDP,智能体无法直接访问环境的真实状态和转移函数。传统方法依赖黑盒模型预测下一步观测,缺乏可解释性和可控性,难以进行有效的调试和优化。此外,如何将离线轨迹有效地转化为可执行的世界模型,并使其具备良好的泛化能力,是一个挑战。
核心思路:PatchWorld的核心思路是通过代码修复的方式,从离线轨迹中学习一个可执行的Python世界模型。该模型以符号信念状态程序的形式存在,允许检查、重放和局部修补。通过反例引导的代码修复,逐步优化世界模型,使其能够准确预测环境的动态变化。这种方法旨在提高世界模型的可解释性、可控性和泛化能力。
技术框架:PatchWorld框架主要包含以下几个阶段:1) 轨迹收集:收集智能体在环境中的离线交互轨迹。2) 初始代码生成:基于轨迹数据,生成一个初始的Python世界模型代码。3) 反例挖掘:在验证集上运行世界模型,找出预测错误的样本作为反例。4) 代码修复:利用反例信息,对世界模型代码进行局部修改,使其能够正确预测这些反例。5) 迭代优化:重复反例挖掘和代码修复过程,直到世界模型在验证集上达到满意的性能。
关键创新:PatchWorld的关键创新在于将世界模型表示为可执行的Python代码,并使用反例引导的代码修复方法进行优化。与传统的黑盒模型相比,这种方法具有更高的可解释性和可控性。此外,PatchWorld框架无需梯度信息,可以直接对离散的代码空间进行搜索,避免了梯度消失或梯度爆炸等问题。
关键设计:PatchWorld使用了一种基于遗传算法的代码修复策略,通过交叉、变异等操作,对世界模型代码进行局部修改。为了提高修复效率,PatchWorld还引入了一些启发式规则,例如优先修复与反例相关的代码片段。此外,PatchWorld还探索了不同的残差记忆偏差,以平衡观测保真度和决策效用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PatchWorld-Simple在七个AgentGym环境中取得了显著的成果,在基于代码的规划任务中达到了最高的得分。具体来说,PatchWorld-Simple在实时单步前瞻中达到了76.4%的宏成功率,优于其他基线方法。此外,研究还发现,人工指定的残差记忆偏差会影响观测保真度和决策效用,揭示了可执行世界模型设计中的一种权衡。
🎯 应用场景
PatchWorld框架可应用于各种文本智能体环境,例如游戏、对话系统、机器人控制等。通过学习可执行的世界模型,智能体可以更好地理解环境的动态变化,并做出更明智的决策。此外,PatchWorld框架还可以用于调试和优化现有的智能体系统,提高其性能和鲁棒性。该研究为开发更智能、更可靠的智能体系统提供了新的思路。
📄 摘要(原文)
Text-agent environments are typically modeled as partially observable Markov decision processes (POMDPs), assuming that the simulator's latent state and transition dynamics are hidden from the agent. Yet little work has examined whether executable code can be induced to serve as a world model for prediction and planning under partial observability. We introduce PatchWorld, a gradient-free framework that turns offline trajectories into executable Python world models through counterexample-guided code repair. Instead of predicting the next observation with a black-box model, PatchWorld induces symbolic belief-state programs whose action updates can be inspected, replayed, and locally patched. Across seven AgentGym environments, PatchWorld-Simple achieves the highest code-based planning score among evaluated methods, reaching 76.4\% macro success in live one-step lookahead while invoking no LLM calls inside the world-model prediction module itself. We further find that a human-specified residual-memory bias improves surface observation fidelity but weakens decision utility. This exposes a tradeoff in executable world models, since improving observation fidelity can come at the expense of action-discriminative dynamics, and vice versa. Code is available at https://github.com/HKBU-KnowComp/PatchWorld.