VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

📄 arXiv: 2510.16907v1 📥 PDF

作者: Kangrui Wang, Pingyue Zhang, Zihan Wang, Yaning Gao, Linjie Li, Qineng Wang, Hanyang Chen, Chi Wan, Yiping Lu, Zhengyuan Yang, Lijuan Wang, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Yejin Choi, Manling Li

分类: cs.AI, cs.CL

发布日期: 2025-10-19

备注: Accepted to NeurIPS 2025


💡 一句话要点

VAGEN:通过强化学习增强世界模型推理,提升多轮VLM Agent性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 强化学习 世界模型 多轮交互 Agent 部分可观察马尔可夫决策过程 状态估计 转移建模

📋 核心要点

  1. VLM Agent面临从文本状态到复杂视觉观察的转变,导致部分可观察性问题,需要更强的世界建模能力。
  2. 论文提出VAGEN框架,通过强化学习显式地建模Agent的推理过程,分解为状态估计和转移建模两个关键步骤。
  3. 实验结果表明,VAGEN框架显著提升了VLM Agent在多个任务上的性能,超越了现有模型,包括GPT-5等。

📝 摘要(中文)

与语言模型(LLM)Agent相比,训练视觉语言模型(VLM)Agent的一个关键挑战在于,状态从文本转变为复杂的视觉观察。这种转变引入了部分可观察性,并需要鲁棒的世界建模。本文探讨了VLM Agent是否可以通过显式的视觉状态推理来构建内部世界模型。为了解决这个问题,我们通过强化学习(RL)在架构上强制并奖励Agent的推理过程,将其形式化为部分可观察马尔可夫决策过程(POMDP)。我们发现,将Agent的推理分解为状态估计(“当前状态是什么?”)和转移建模(“接下来会发生什么?”)对于成功至关重要,这通过五种推理策略得到证明。我们对Agent如何表示内部信念的研究表明,最佳表示是任务相关的:自然语言擅长捕捉一般任务中的语义关系,而结构化格式对于精确的操作和控制是不可或缺的。基于这些见解,我们设计了一个世界建模奖励,为准确的状态预测提供密集的、回合级别的监督,并引入了双层通用优势估计(Bi-Level GAE)用于回合感知的信用分配。通过这种视觉状态推理,一个30亿参数的模型在五个不同的Agent基准测试中取得了0.82的分数,比其未经训练的对应模型(0.21)提高了3倍,并且优于专有的推理模型,如GPT-5(0.75),Gemini 2.5 Pro(0.67)和Claude 4.5(0.62)。所有实验都在我们的VAGEN框架内进行,这是一个可扩展的系统,用于在不同的视觉环境中训练和分析多轮VLM Agent。代码和数据可在https://vagen-ai.github.io公开获取。

🔬 方法详解

问题定义:现有的VLM Agent在多轮交互中,难以有效利用视觉信息构建准确的世界模型,导致推理能力不足。尤其是在部分可观察的环境下,Agent无法直接获取完整状态,需要通过历史观测进行推断,这给训练带来了挑战。现有方法通常缺乏对Agent推理过程的显式建模和监督,导致学习效率低下。

核心思路:论文的核心思路是通过强化学习,显式地建模和奖励Agent的推理过程,使其能够构建更准确的内部世界模型。具体来说,将Agent的推理过程分解为状态估计和转移建模两个步骤,并设计相应的奖励函数来指导Agent学习。这种分解能够简化学习任务,提高学习效率。

技术框架:VAGEN框架主要包含以下几个模块:1) VLM Agent:负责接收视觉输入,执行动作,并输出状态估计和转移预测。2) World Modeling Reward:根据Agent的状态估计和转移预测,计算奖励信号,用于指导Agent学习。3) Bi-Level GAE:用于进行回合感知的信用分配,解决多轮交互中的奖励稀疏问题。4) 强化学习算法:用于优化Agent的策略,使其能够最大化累积奖励。整体流程是:Agent接收环境的视觉输入,进行状态估计和转移预测,环境根据Agent的动作给出反馈,World Modeling Reward计算奖励信号,Bi-Level GAE进行信用分配,强化学习算法更新Agent的策略。

关键创新:论文的关键创新在于:1) 显式地建模和奖励Agent的推理过程,使其能够构建更准确的内部世界模型。2) 将Agent的推理过程分解为状态估计和转移建模两个步骤,简化了学习任务。3) 提出了World Modeling Reward和Bi-Level GAE,用于提供密集的监督信号和进行回合感知的信用分配。这些创新使得VAGEN框架能够有效地训练多轮VLM Agent。

关键设计:在状态表示方面,论文探讨了自然语言和结构化格式两种表示方法,发现自然语言更适合捕捉语义关系,而结构化格式更适合精确的操作和控制。在奖励函数设计方面,World Modeling Reward根据Agent的状态估计和转移预测的准确性来计算奖励信号。在信用分配方面,Bi-Level GAE考虑了回合之间的依赖关系,能够更准确地评估每个动作的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VAGEN框架显著提升了VLM Agent在五个不同的Agent基准测试上的性能,达到了0.82的分数,比其未经训练的对应模型(0.21)提高了3倍,并且优于专有的推理模型,如GPT-5(0.75),Gemini 2.5 Pro(0.67)和Claude 4.5(0.62)。这些结果表明,VAGEN框架能够有效地训练多轮VLM Agent,并使其具备更强的推理能力。

🎯 应用场景

VAGEN框架具有广泛的应用前景,例如机器人导航、智能家居、自动驾驶等领域。通过构建更准确的世界模型,Agent可以更好地理解环境,做出更合理的决策,从而提高任务完成的效率和质量。该研究为多轮VLM Agent的训练提供了一种新的思路,有望推动相关领域的发展。

📄 摘要(原文)

A key challenge in training Vision-Language Model (VLM) agents, compared to Language Model (LLM) agents, lies in the shift from textual states to complex visual observations. This transition introduces partial observability and demands robust world modeling. We ask: Can VLM agents construct internal world models through explicit visual state reasoning? To address this question, we architecturally enforce and reward the agent's reasoning process via reinforcement learning (RL), formulating it as a Partially Observable Markov Decision Process (POMDP). We find that decomposing the agent's reasoning into State Estimation ("what is the current state?") and Transition Modeling ("what comes next?") is critical for success, as demonstrated through five reasoning strategies. Our investigation into how agents represent internal beliefs reveals that the optimal representation is task-dependent: Natural Language excels at capturing semantic relationships in general tasks, while Structured formats are indispensable for precise manipulation and control. Building on these insights, we design a World Modeling Reward that provides dense, turn-level supervision for accurate state prediction, and introduce Bi-Level General Advantage Estimation (Bi-Level GAE) for turn-aware credit assignment. Through this form of visual state reasoning, a 3B-parameter model achieves a score of 0.82 across five diverse agent benchmarks, representing a 3$\times$ improvement over its untrained counterpart (0.21) and outperforming proprietary reasoning models such as GPT-5 (0.75), Gemini 2.5 Pro (0.67) and Claude 4.5 (0.62). All experiments are conducted within our VAGEN framework, a scalable system for training and analyzing multi-turn VLM agents in diverse visual environments. Code and data are publicly available at https://vagen-ai.github.io.