STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs
作者: Zongzhao Li, Zongyang Ma, Mingze Li, Songyou Li, Yu Rong, Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang
分类: cs.CV
发布日期: 2025-05-21 (更新: 2025-07-10)
🔗 代码/项目: GITHUB
💡 一句话要点
STAR-R1:通过强化多模态LLM进行空间变换推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 空间推理 强化学习 视觉推理 跨视角变换
📋 核心要点
- 现有MLLM在空间推理方面不足,尤其是在跨视角变换推理任务中,监督微调难以生成连贯推理路径,稀疏奖励强化学习效率低下。
- STAR-R1框架采用单阶段强化学习,并设计了细粒度的奖励机制,奖励部分正确性,惩罚过度枚举和不作为,从而提升探索效率。
- 实验结果表明,STAR-R1在所有指标上均达到SOTA,在跨视角场景中性能超越监督微调23%,展现出更接近人类的推理行为。
📝 摘要(中文)
多模态大型语言模型(MLLM)在各种任务中表现出卓越的能力,但在空间推理方面与人类相比仍存在显著差距。我们通过变换驱动的视觉推理(TVR)来研究这一差距,这是一项具有挑战性的任务,需要在不同视角下识别图像中物体的变换。传统的监督微调(SFT)无法在跨视角设置中生成连贯的推理路径,而稀疏奖励强化学习(RL)则面临探索效率低下和收敛速度慢的问题。为了解决这些限制,我们提出了一种新的框架STAR-R1,该框架将单阶段RL范式与为TVR量身定制的细粒度奖励机制相结合。具体来说,STAR-R1奖励部分正确性,同时惩罚过度枚举和被动不作为,从而实现高效探索和精确推理。全面的评估表明,STAR-R1在所有11个指标上都达到了最先进的性能,在跨视角场景中优于SFT 23%。进一步的分析揭示了STAR-R1的拟人行为,并突出了其比较所有对象以改进空间推理的独特能力。我们的工作为推进MLLM和推理模型的研究提供了重要的见解。代码、模型权重和数据将在https://github.com/zongzhao23/STAR-R1上公开。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在空间变换推理(TVR)任务中的不足。现有方法,如监督微调(SFT),在跨视角场景下难以生成连贯的推理路径。而稀疏奖励强化学习(RL)则面临探索效率低下和收敛速度慢的问题,导致模型难以有效地学习空间关系。
核心思路:论文的核心思路是将单阶段强化学习与细粒度的奖励机制相结合,从而克服传统方法的局限性。通过奖励部分正确的推理步骤,并惩罚过度枚举和不作为的行为,引导模型进行更有效的探索和更精确的推理。这种方法旨在使模型能够更好地理解和推理不同视角下的物体变换。
技术框架:STAR-R1框架采用单阶段强化学习范式。其主要流程包括:1)输入包含不同视角的图像对;2)模型通过策略网络生成一系列推理步骤;3)根据细粒度的奖励机制,计算每个步骤的奖励值;4)利用强化学习算法(如REINFORCE或PPO)更新策略网络,从而优化模型的推理能力。整个过程在一个阶段内完成,避免了多阶段训练的复杂性。
关键创新:STAR-R1的关键创新在于其细粒度的奖励机制。该机制不仅奖励最终的正确答案,还奖励部分正确的推理步骤,例如正确识别了某些物体的变换。同时,该机制还惩罚过度枚举(尝试过多的不相关物体)和不作为(没有进行任何推理)。这种细粒度的奖励机制能够更有效地引导模型进行探索,并学习到更精确的空间推理能力。与传统的稀疏奖励机制相比,STAR-R1的奖励信号更加密集,从而加速了模型的收敛。
关键设计:STAR-R1的奖励函数设计是其关键技术细节。奖励函数包含三个主要部分:1)正确性奖励,奖励模型正确识别物体变换;2)枚举惩罚,惩罚模型尝试过多的不相关物体;3)不作为惩罚,惩罚模型没有进行任何推理。这些奖励和惩罚的权重需要仔细调整,以平衡探索和利用之间的关系。此外,策略网络的设计也至关重要,需要能够有效地生成推理步骤,并利用视觉和语言信息进行推理。
🖼️ 关键图片
📊 实验亮点
STAR-R1在TVR任务的11个指标上均达到SOTA,尤其在跨视角场景中,性能超越SFT 23%。这表明STAR-R1在处理复杂空间推理问题上具有显著优势。此外,分析还揭示了STAR-R1具有更接近人类的推理行为,能够比较所有对象以提升空间推理能力。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。通过提升机器对空间关系的理解和推理能力,可以使机器人在复杂环境中更好地感知和行动。例如,机器人可以根据不同视角的图像,准确判断物体的位置和状态,从而实现更智能的导航和操作。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across diverse tasks, yet they lag significantly behind humans in spatial reasoning. We investigate this gap through Transformation-Driven Visual Reasoning (TVR), a challenging task requiring identification of object transformations across images under varying viewpoints. While traditional Supervised Fine-Tuning (SFT) fails to generate coherent reasoning paths in cross-view settings, sparse-reward Reinforcement Learning (RL) suffers from inefficient exploration and slow convergence. To address these limitations, we propose STAR-R1, a novel framework that integrates a single-stage RL paradigm with a fine-grained reward mechanism tailored for TVR. Specifically, STAR-R1 rewards partial correctness while penalizing excessive enumeration and passive inaction, enabling efficient exploration and precise reasoning. Comprehensive evaluations demonstrate that STAR-R1 achieves state-of-the-art performance across all 11 metrics, outperforming SFT by 23% in cross-view scenarios. Further analysis reveals STAR-R1's anthropomorphic behavior and highlights its unique ability to compare all objects for improving spatial reasoning. Our work provides critical insights in advancing the research of MLLMs and reasoning models. The codes, model weights, and data will be publicly available at https://github.com/zongzhao23/STAR-R1.