Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
作者: Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-01
💡 一句话要点
Odysseus:通过强化学习将视觉语言模型扩展到游戏中100+步决策
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 强化学习 长时程决策 具身智能 游戏AI
📋 核心要点
- 现有方法在游戏等长时程决策任务中,依赖大规模监督微调或仅在短时程应用强化学习,存在效率和泛化性问题。
- Odysseus提出一种改进的PPO变体,带有轻量级turn-level评论器,提升训练稳定性和样本效率,并利用预训练VLM提供行动先验。
- 实验表明,Odysseus在《超级马里奥乐园》中显著提升了游戏进度,并在游戏内和跨游戏泛化中表现出持续改进。
📝 摘要(中文)
鉴于视觉语言模型(VLM)能力的快速增长,将其扩展到交互式决策任务(如视频游戏)已成为一个有前景的前沿领域。然而,现有方法要么依赖于对人类轨迹的大规模监督微调(SFT),要么仅在相对较短的时间范围内(通常在20-30步左右)应用强化学习(RL)。本文研究了基于RL的VLM训练,用于《超级马里奥乐园》中的长时程决策,这是一个视觉环境,需要100+步的交互,并协调感知、推理和行动。我们首先系统地研究了关键的算法组件,并提出了一种改进的PPO变体,它带有一个轻量级的turn-level评论器,与GRPO和Reinforce++等无评论器方法相比,大大提高了训练稳定性和样本效率。我们进一步表明,预训练的VLM提供了强大的行动先验,显著提高了RL训练期间的样本效率,并减少了手动设计选择(如行动工程)的需求,而从头开始训练的经典深度RL则需要这些。基于这些见解,我们推出了Odysseus,一个用于VLM代理的开放训练框架,在游戏的多个级别上取得了显著的收益,并且平均游戏进度至少是前沿模型的3倍。此外,经过训练的模型在游戏内和跨游戏泛化设置下都表现出持续的改进,同时保持了一般的领域能力。总的来说,我们的结果确定了使RL在长时程、多模态设置中稳定和有效的关键要素,并为开发VLM作为具身代理提供了实践指导。
🔬 方法详解
问题定义:现有方法在处理视频游戏等需要长期决策的任务时,面临着样本效率低、训练不稳定以及泛化能力不足的问题。大规模监督微调需要大量人工标注数据,成本高昂;而传统的强化学习方法在长时程任务中难以收敛,且需要大量手动设计的行动空间。
核心思路:Odysseus的核心思路是结合预训练视觉语言模型(VLM)的强大表征能力和强化学习(RL)的决策能力,通过一种改进的PPO算法,实现高效稳定的长时程决策。利用VLM作为行动先验,减少了RL训练的搜索空间,提高了样本效率。同时,引入轻量级的turn-level评论器,增强了训练的稳定性。
技术框架:Odysseus的整体框架包括以下几个主要模块:1) 视觉语言模型(VLM):用于提取游戏画面的视觉特征和理解游戏状态;2) 策略网络:基于VLM的输出,预测下一步的行动;3) 评论器网络:评估当前状态的价值,用于指导策略网络的训练;4) 强化学习算法:采用改进的PPO算法,结合VLM的行动先验和turn-level评论器,优化策略网络。
关键创新:Odysseus的关键创新在于:1) 提出了一种轻量级的turn-level评论器,显著提高了PPO算法在长时程任务中的训练稳定性;2) 利用预训练VLM作为行动先验,减少了RL训练的搜索空间,提高了样本效率,降低了对人工设计的依赖;3) 构建了一个开放的训练框架,方便研究人员进行VLM代理的训练和评估。
关键设计:Odysseus的关键设计包括:1) 采用Transformer架构的VLM,能够有效捕捉游戏画面的视觉信息和游戏状态的语义信息;2) 设计了一个轻量级的turn-level评论器,只关注当前状态的价值,避免了对未来状态的预测,从而提高了训练的稳定性;3) 使用了一种改进的PPO算法,结合了VLM的行动先验和turn-level评论器,实现了高效稳定的长时程决策。
🖼️ 关键图片
📊 实验亮点
Odysseus在《超级马里奥乐园》中取得了显著的性能提升,平均游戏进度至少是前沿模型的3倍。实验结果表明,Odysseus在游戏内和跨游戏泛化设置下都表现出持续的改进,同时保持了一般的领域能力。与传统的深度强化学习方法相比,Odysseus显著提高了样本效率和训练稳定性。
🎯 应用场景
Odysseus的研究成果可应用于各种需要长时程决策的具身智能任务,例如机器人导航、自动驾驶、游戏AI等。该框架能够提升智能体在复杂环境中的决策能力和泛化能力,降低对人工设计的依赖,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.