Beyond State Consistency: Behavior Consistency in Text-Based World Models

📄 arXiv: 2604.13824v1 📥 PDF

作者: Youling Huang, Guanqiao Chen, Junchi Yao, Lu Wang, Fangkai Yang, Chao Du, ChenZhuo Zhao, Pu Zhao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

分类: cs.LG

发布日期: 2026-04-15

备注: 20 pages, 2 figures


💡 一句话要点

提出行为一致性奖励(BehR)训练范式,提升文本世界模型与真实环境的功能一致性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本世界模型 行为一致性 强化学习 离线评估 在线规划 文本交互Agent

📋 核心要点

  1. 现有文本世界模型依赖单步指标(如精确匹配),无法充分捕捉Agent的长期行为一致性。
  2. 提出行为一致性奖励(BehR)训练范式,优化世界模型预测状态下Agent行为与真实环境的一致性。
  3. 实验表明,BehR训练提升了长期对齐效果,降低了离线评估的假阳性率,并在前瞻规划中取得收益。

📝 摘要(中文)

世界模型在评估交互式Agent行为后果方面日益重要,尤其是在在线规划和离线评估中。在文本环境中,世界模型通常使用诸如精确匹配之类的单步指标进行评估和训练,但这不足以捕捉Agent的实际行为。为了解决这个问题,我们引入了一种新的行为对齐训练范式,旨在提高世界模型与真实环境之间的功能一致性。该范式专注于优化一个名为行为一致性奖励(BehR)的可处理的步级指标,该指标衡量在冻结的参考Agent下,真实状态和世界模型预测状态之间记录的下一个动作的可能性变化程度。在WebShop和TextWorld上的实验表明,基于BehR的训练在多个设置中提高了长期对齐效果,在WebShop中效果最明显,在接近上限的区域效果较小,同时在四个设置中的三个中保持或提高了单步预测质量。使用BehR训练的世界模型还在离线代理评估中实现了更低的假阳性率,并在推理时前瞻规划中显示出适度但令人鼓舞的收益。

🔬 方法详解

问题定义:现有文本世界模型训练主要依赖于单步预测的准确性,例如预测的文本状态与真实状态的精确匹配程度。然而,这种单步指标并不能保证Agent在长期交互过程中的行为与真实环境保持一致。换句话说,即使世界模型能够准确预测下一步的状态,也可能无法模拟Agent在真实环境中的决策过程,导致规划和评估出现偏差。

核心思路:论文的核心思路是直接优化世界模型预测状态下Agent的行为。具体来说,就是让Agent在世界模型预测的状态下采取的行动,与在真实状态下采取的行动尽可能一致。这种一致性是通过一个名为行为一致性奖励(BehR)的指标来衡量的。BehR衡量的是在真实状态和世界模型预测状态下,一个固定的参考Agent采取相同动作的概率差异。

技术框架:整体框架包含以下几个关键部分:1) 世界模型:用于预测给定状态和动作后的下一个状态。2) 参考Agent:一个预先训练好的策略,用于在给定状态下选择动作。3) 行为一致性奖励(BehR):用于衡量在真实状态和世界模型预测状态下,参考Agent采取相同动作的概率差异。训练过程通过最大化BehR来优化世界模型,使其预测的状态能够更好地反映真实环境中的Agent行为。

关键创新:最重要的创新在于直接优化世界模型预测状态下Agent的行为一致性,而不是仅仅关注单步状态预测的准确性。这种行为对齐的训练范式能够更好地捕捉Agent在长期交互过程中的决策模式,从而提高世界模型的可靠性和实用性。与现有方法相比,BehR关注的是行为的相似性,而不是状态的相似性,这使得世界模型能够更好地泛化到未见过的状态和动作。

关键设计:BehR的计算公式为:BehR = log P(a | s') - log P(a | s),其中s是真实状态,s'是世界模型预测的状态,a是参考Agent采取的动作,P(a | s)表示参考Agent在状态s下采取动作a的概率。损失函数通常是BehR的负值,通过梯度下降来优化世界模型的参数。参考Agent的选择也很重要,通常选择一个在真实环境中表现良好的策略作为参考Agent。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在WebShop和TextWorld两个文本环境中,基于BehR的训练显著提高了世界模型的长期对齐效果。尤其是在WebShop环境中,提升最为明显。此外,使用BehR训练的世界模型在离线代理评估中实现了更低的假阳性率,并在推理时前瞻规划中显示出适度但令人鼓舞的收益。在三个设置中,单步预测质量也得到了保持或提高。

🎯 应用场景

该研究成果可应用于各种文本交互式Agent的训练和评估,例如游戏AI、对话系统、任务导向型Agent等。通过提高世界模型与真实环境的行为一致性,可以提升Agent的规划能力、决策质量和泛化性能,从而在实际应用中取得更好的效果。此外,该方法还可以用于离线策略评估,降低假阳性率,提高评估的准确性。

📄 摘要(原文)

World models have been emerging as critical components for assessing the consequences of actions generated by interactive agents in online planning and offline evaluation. In text-based environments, world models are typically evaluated and trained with single-step metrics such as Exact Match, aiming to improve the similarity between predicted and real-world states, but such metrics have been shown to be insufficient for capturing actual agent behavior. To address this issue, we introduce a new behavior-aligned training paradigm aimed at improving the functional consistency between the world model and the real environment. This paradigm focuses on optimizing a tractable step-level metric named Behavior Consistency Reward (BehR), which measures how much the likelihood of a logged next action changes between the real state and the world-model-predicted state under a frozen Reference Agent. Experiments on WebShop and TextWorld show that BehR-based training improves long-term alignment in several settings, with the clearest gains in WebShop and less movement in near-ceiling regimes, while preserving or improving single-step prediction quality in three of four settings. World models trained with BehR also achieve lower false positives in offline surrogate evaluation and show modest but encouraging gains in inference-time lookahead planning.