GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

📄 arXiv: 2503.08525v2 📥 PDF

作者: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye

分类: cs.CV, cs.AI

发布日期: 2025-03-11 (更新: 2025-07-11)

备注: Accepted by ICCV 2025


💡 一句话要点

提出GTR框架,解决RL训练VLM Agent时出现的思维坍塌问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 强化学习 思维链 过程指导 自动校正 具身智能 推理 思维坍塌

📋 核心要点

  1. 现有基于结果奖励的强化学习在训练VLM Agent进行复杂推理时,存在思维多样性丧失和推理不完整的问题。
  2. 论文提出GTR框架,通过自动校正器在每个RL步骤评估和改进Agent的推理过程,从而引导Agent进行有效的思考。
  3. 实验表明,GTR显著提升了VLM Agent在复杂视觉环境中的任务成功率,性能优于现有方法。

📝 摘要(中文)

本文研究了基于可验证结果奖励的强化学习(RLVR)在训练视觉语言模型(VLM) Agent以进行视觉环境中目标导向动作推理方面的有效性。通过在复杂纸牌游戏(如24点)和ALFWorld中的具身任务上进行大量实验,发现当奖励仅基于动作结果时,RL无法激励VLM中的CoT推理,反而导致一种称为“思维坍塌”的现象,其特征是Agent思维多样性的迅速丧失、与状态无关且不完整的推理,以及随之而来的无效动作,从而导致负面奖励。为了对抗思维坍塌,本文强调了过程指导的必要性,并提出了一种自动校正器,用于评估和改进Agent在每个RL步骤中的推理。这种简单且可扩展的GTR(引导思维强化)框架可以同时训练推理和动作,而无需密集的、每一步的人工标注。实验表明,GTR显著提高了LLaVA-7b模型在各种视觉环境中的性能和泛化能力,与模型尺寸明显更小的SoTA模型相比,任务成功率提高了3-5倍。

🔬 方法详解

问题定义:现有方法在利用强化学习训练VLM Agent时,仅仅依赖最终结果的奖励,导致Agent为了获得奖励而忽略了中间的推理过程,从而出现“思维坍塌”现象,即Agent的思考过程变得单一、不完整,最终导致无效动作和负面奖励。这种现象阻碍了VLM Agent在复杂视觉环境中的应用。

核心思路:论文的核心思路是通过引入过程指导来防止“思维坍塌”。具体来说,就是在强化学习的训练过程中,不仅关注最终结果的奖励,还关注Agent的中间推理过程,并对推理过程进行评估和改进,从而引导Agent进行更有效、更完整的思考。

技术框架:GTR框架主要包含以下几个模块:1) VLM Agent:负责接收环境信息,进行推理并执行动作;2) 自动校正器:负责评估Agent的推理过程,并提供改进建议;3) 强化学习模块:负责根据环境反馈和自动校正器的建议,更新Agent的策略。整个流程是:Agent接收环境信息,进行推理并执行动作;自动校正器评估Agent的推理过程,并提供改进建议;强化学习模块根据环境反馈和自动校正器的建议,更新Agent的策略。

关键创新:GTR框架的关键创新在于引入了自动校正器,实现了对Agent推理过程的自动评估和改进。与传统的强化学习方法相比,GTR框架不仅关注最终结果的奖励,还关注中间推理过程,从而有效地防止了“思维坍塌”现象。此外,GTR框架不需要人工标注,可以实现自动化的训练。

关键设计:自动校正器的具体实现方式未知,论文中没有详细描述。强化学习模块可以使用各种现有的强化学习算法,例如Q-learning、SARSA、Policy Gradient等。损失函数的设计需要综合考虑最终结果的奖励和自动校正器的建议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GTR框架显著提高了LLaVA-7b模型在各种视觉环境中的性能和泛化能力,与SoTA模型相比,任务成功率提高了3-5倍。值得注意的是,LLaVA-7b模型尺寸明显小于对比的SoTA模型,这表明GTR框架可以在较小的模型上实现更好的性能。

🎯 应用场景

该研究成果可应用于各种需要复杂推理和决策的视觉任务,例如机器人导航、智能游戏、自动驾驶等。通过引导Agent进行有效的思考,可以提高Agent在复杂环境中的适应性和鲁棒性,从而实现更智能、更可靠的应用。

📄 摘要(原文)

Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent's thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent's reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.