Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
作者: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-11-07
备注: Project Page: https://nvlabs.github.io/LongGroundedThoughts/
💡 一句话要点
提出Long Grounded Thoughts框架,用于大规模合成高质量视觉推理链数据,提升视觉语言模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉推理 数据合成 视觉语言模型 链式推理 多模态学习
📋 核心要点
- 现有多模态推理进展依赖于未公开的数据集和数据合成方法,缺乏系统构建大规模视觉推理数据集的方案。
- 提出Long Grounded Thoughts框架,通过两阶段过程生成高质量视觉推理链数据,包含规模化和复杂化两个阶段。
- 实验表明,在生成的数据集上微调Qwen2.5-VL-7B,在多个视觉推理基准测试中超越现有开放和封闭数据集模型。
📝 摘要(中文)
本文介绍了一种新的推理数据生成框架,该框架涵盖了多种技能和复杂程度,生成了超过100万个高质量的以视觉为中心的合成问题。该数据集还包括偏好数据和指令提示,支持离线和在线强化学习。合成框架分两个阶段进行:(1)规模化;(2)复杂化。然后,通过利用视觉语言模型(VLM)和推理语言模型(LLM)的两阶段过程合成推理轨迹,为VLM生成CoT(Chain-of-Thought)轨迹,捕捉前沿推理模型中丰富的多样化认知行为。实验表明,在我们的数据上微调Qwen2.5-VL-7B在所有评估的以视觉为中心的基准测试中都优于所有开放数据基线,甚至超过了强大的封闭数据模型,如V* Bench、CV-Bench和MMStar-V上的MiMo-VL-7B-RL。令人惊讶的是,尽管完全以视觉为中心,我们的数据对纯文本推理(MMLU-Pro)和音频推理(MMAU)产生了积极的迁移效果,证明了其有效性。同样,尽管不包含视频或具身视觉数据,但在单证据具身问答基准测试(NiEH)中也观察到了显著的收益。最后,我们使用我们的数据来分析整个VLM后训练流程。我们的实证分析表明:(i)在具有非线性推理轨迹的高质量数据上进行SFT对于有效的在线强化学习至关重要,(ii)分阶段离线强化学习与在线强化学习的性能相匹配,同时降低了计算需求,以及(iii)在高质量数据上进行仔细的SFT可以显著改善跨模态的领域外迁移。
🔬 方法详解
问题定义:现有视觉推理数据集构建方法存在局限性,难以系统地构建大规模、高质量的视觉推理数据集,尤其是在视觉数学之外的任务中。现有的数据集往往依赖于未公开的数据集和专有的数据合成方法,缺乏透明度和可复现性。
核心思路:本文的核心思路是通过一个两阶段的合成框架,首先生成大规模的视觉数据,然后逐步增加推理的复杂性。通过利用视觉语言模型(VLM)和推理语言模型(LLM)生成推理轨迹,从而构建高质量的视觉推理链数据。这种方法旨在捕捉前沿推理模型中丰富的多样化认知行为。
技术框架:该框架包含两个主要阶段:(1) 规模化阶段:生成大规模的视觉数据,涵盖多种场景和对象。(2) 复杂化阶段:逐步增加推理的复杂性,例如引入多步推理、逻辑推理等。推理轨迹的生成过程也分为两个阶段:首先利用VLM生成初步的推理步骤,然后利用推理LLM对这些步骤进行细化和完善,最终生成CoT(Chain-of-Thought)轨迹。
关键创新:该方法最重要的创新点在于其两阶段的数据合成框架,能够系统地构建大规模、高质量的视觉推理链数据。与现有方法相比,该方法更加透明和可复现,并且能够生成包含丰富认知行为的推理轨迹。此外,该方法还支持离线和在线强化学习,为VLM的训练提供了更多的选择。
关键设计:在规模化阶段,需要设计合适的视觉数据生成策略,例如使用合成数据生成引擎或从现有数据集中采样。在复杂化阶段,需要设计合适的推理任务和推理规则,例如引入多步推理、逻辑推理等。在推理轨迹生成过程中,需要选择合适的VLM和推理LLM,并设计合适的提示语,以引导模型生成高质量的推理步骤。此外,还需要设计合适的奖励函数,以鼓励模型生成更准确、更完整的推理轨迹。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在生成的数据集上微调Qwen2.5-VL-7B在V* Bench、CV-Bench和MMStar-V等多个视觉推理基准测试中,超越了所有开放数据基线,甚至超过了MiMo-VL-7B-RL等强大的封闭数据模型。此外,该数据还对纯文本推理(MMLU-Pro)和音频推理(MMAU)产生了积极的迁移效果,证明了其有效性。
🎯 应用场景
该研究成果可应用于提升视觉语言模型在各种视觉推理任务中的性能,例如视觉问答、图像描述、视觉常识推理等。此外,该数据集和合成框架可以促进多模态推理领域的研究,并为开发更智能的视觉系统提供支持。该方法还可用于生成其他类型的多模态数据,例如视频推理数据和具身视觉数据。
📄 摘要(原文)
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.