Training Multimodal Large Reasoning Models Needs Better Thoughts: A Three-Stage Framework for Long Chain-of-Thought Synthesis and Selection
作者: Yizhi Wang, Linan Yue, Min-Ling Zhang
分类: cs.AI, cs.LG
发布日期: 2025-12-22
💡 一句话要点
提出SynSelect框架,为多模态大模型生成高质量长链推理训练数据。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 长链思考 数据合成 数据选择 大型推理模型
📋 核心要点
- 多模态推理面临高质量长链思考数据稀缺的挑战,现有方法存在推理深度有限和模态转换错误等问题。
- SynSelect框架通过多阶段合成与选择,生成高质量长链思考数据,提升多模态大型推理模型的推理能力。
- 实验表明,基于SynSelect生成数据微调的模型在多个多模态基准上显著优于基线模型,并可通过强化学习进一步提升。
📝 摘要(中文)
大型推理模型(LRMs)在复杂的推理任务中通过长链思考(CoT)推理表现出卓越的性能。然而,将这些成功扩展到多模态推理仍然具有挑战性,这是由于整合不同输入模态的复杂性增加以及高质量长CoT训练数据的稀缺。现有的多模态数据集和CoT合成方法仍然存在推理深度有限、模态转换错误和生成流程僵化等问题,从而阻碍了模型性能和稳定性。为此,本文提出SynSelect,一种新颖的三阶段合成-选择框架,用于生成针对多模态推理任务量身定制的高质量长CoT数据。具体来说,SynSelect首先利用多个异构多模态LRM来生成多样化的候选CoT,然后应用实例和批次级别的选择来过滤高质量的CoT,这些CoT可以有效地增强模型的推理能力。在多个多模态基准上的大量实验表明,在SynSelect生成的数据上进行监督微调的模型显著优于基线,并在强化学习后训练后取得了进一步的改进。我们的结果验证了SynSelect是提高多模态LRM推理能力的有效方法。
🔬 方法详解
问题定义:论文旨在解决多模态大型推理模型训练数据不足,特别是高质量长链思考(CoT)数据稀缺的问题。现有方法生成的CoT数据存在推理深度不足、模态转换错误以及生成流程僵化等痛点,限制了模型性能的提升。
核心思路:论文的核心思路是通过一个三阶段的“合成-选择”框架SynSelect,自动生成高质量的长CoT数据。该框架首先利用多个不同的多模态大型推理模型生成多样化的候选CoT,然后通过实例级别和批次级别的选择策略,筛选出能够有效提升模型推理能力的CoT数据。这样设计的目的是为了克服现有方法的局限性,获得更丰富、更准确、更有效的训练数据。
技术框架:SynSelect框架包含三个主要阶段: 1. CoT合成(Synthesis):利用多个异构的多模态大型推理模型,针对给定的多模态输入生成多个候选的CoT推理过程。 2. 实例选择(Instance Selection):对每个候选CoT进行质量评估,选择出高质量的CoT。评估标准可能包括推理的正确性、逻辑的连贯性以及信息的完整性等。 3. 批次选择(Batch Selection):在选择出的高质量CoT集合中,进一步选择出最具代表性和多样性的CoT子集,用于模型的训练。这一步旨在避免训练数据过于集中,提高模型的泛化能力。
关键创新:SynSelect的关键创新在于其三阶段的合成与选择流程,特别是批次选择策略。与传统的CoT生成方法相比,SynSelect能够生成更长、更复杂、更准确的CoT数据。通过多模型合成和多层次选择,SynSelect能够有效地提高训练数据的质量和多样性,从而提升多模态大型推理模型的推理能力。
关键设计:论文中可能涉及的关键设计包括: * 多模态大型推理模型的选择:如何选择合适的模型来生成多样化的候选CoT? * 实例选择的评估指标:如何设计有效的指标来评估CoT的质量?例如,可以使用预训练的语言模型或视觉模型来评估推理的正确性和连贯性。 * 批次选择的策略:如何选择最具代表性和多样性的CoT子集?例如,可以使用聚类算法或基于覆盖率的算法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在SynSelect生成的数据上进行微调的模型在多个多模态基准测试中显著优于基线模型。具体性能提升数据未知,但强调了通过强化学习进行后训练可以进一步提高模型性能。这验证了SynSelect在提升多模态大型推理模型推理能力方面的有效性。
🎯 应用场景
该研究成果可广泛应用于需要多模态信息融合和复杂推理的场景,例如智能问答、视觉推理、机器人导航等。通过提升多模态大型推理模型的推理能力,可以实现更智能、更可靠的人工智能系统,在医疗诊断、金融分析、自动驾驶等领域具有巨大的应用潜力。
📄 摘要(原文)
Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex reasoning tasks through long Chain-of-Thought (CoT) reasoning. Extending these successes to multimodal reasoning remains challenging due to the increased complexity of integrating diverse input modalities and the scarcity of high-quality long CoT training data. Existing multimodal datasets and CoT synthesis methods still suffer from limited reasoning depth, modality conversion errors, and rigid generation pipelines, hindering model performance and stability. To this end, in this paper, we propose SynSelect, a novel three-stage Synthesis-Selection framework for generating high-quality long CoT data tailored to multimodal reasoning tasks. Specifically, SynSelect first leverages multiple heterogeneous multimodal LRMs to produce diverse candidate CoTs, and then applies both instance and batch level selection to filter high-quality CoTs that can effectively enhance the model's reasoning capabilities. Extensive experiments on multiple multimodal benchmarks demonstrate that models supervised fine-tuned on SynSelect-generated data significantly outperform baselines and achieve further improvements after reinforcement learning post-training. Our results validate SynSelect as an effective approach for advancing multimodal LRMs reasoning capabilities.