The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs

作者: Jierun Chen, Tiezheng Yu, Haoli Bai, Lewei Yao, Jiannan Wu, Kaican Li, Fei Mi, Chaofan Tao, Lei Zhu, Manyi Zhang, Xiaohui Li, Lu Hou, Lifeng Shang, Qun Liu

分类: cs.CL

发布日期: 2025-07-10

💡 一句话要点

揭示长CoT SFT与RL在视觉语言模型推理中的协同困境，探究后训练技术瓶颈

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 长链思维 监督微调 强化学习 协同困境 多模态推理 后训练技术

📋 核心要点

现有视觉语言模型在推理能力上存在不足，尤其是在复杂问题上，需要更有效的后训练技术。
论文核心在于研究长链思维监督微调（SFT）和强化学习（RL）在视觉语言模型中的协同作用，并分析其局限性。
实验表明，SFT和RL单独使用时各有优势，但组合使用时未能产生预期效果，反而出现性能权衡。

📝 摘要（中文）

大型视觉语言模型（VLMs）越来越多地采用后训练技术，如长链思维（CoT）监督微调（SFT）和强化学习（RL），以激发复杂的推理能力。虽然这些方法在纯语言模型中表现出协同作用，但它们在VLMs中的联合有效性仍然不确定。本文对长CoT SFT和RL在多个多模态推理基准测试中的不同作用和相互作用进行了系统研究。研究发现，SFT通过深入、结构化的推理提高了难题的性能，但引入了冗长的表达，降低了简单问题的性能。相比之下，RL促进了泛化和简洁性，从而在所有难度级别上都取得了持续的改进，尽管最难题上的改进不如SFT显著。令人惊讶的是，通过两阶段、交错或渐进式训练策略，以及数据混合和模型融合来组合它们，都未能产生累加效益，反而导致了在准确性、推理风格和响应长度方面的权衡。这种“协同困境”突显了需要更无缝和自适应的方法，以释放组合后训练技术在推理VLMs中的全部潜力。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）在复杂推理任务中，长链思维监督微调（long-CoT SFT）和强化学习（RL）两种后训练技术结合使用时，未能达到预期协同效果的问题。现有方法单独使用时各有优缺点，但简单地组合反而导致性能下降，即“协同困境”。

核心思路：论文的核心思路是通过系统性的实验分析，深入理解long-CoT SFT和RL在VLM推理中的不同作用和相互影响。通过对比两种方法在不同难度问题上的表现，以及探索不同的组合训练策略，揭示协同困境的根本原因。

技术框架：论文采用实验驱动的研究方法，主要包含以下几个阶段：1) 选择多个多模态推理基准测试数据集；2) 分别对VLM进行long-CoT SFT和RL训练；3) 探索不同的组合训练策略，包括两阶段训练、交错训练、渐进式训练、数据混合和模型融合；4) 对比不同训练策略下VLM在各个基准测试上的性能表现，并分析其推理风格和响应长度。

关键创新：论文最重要的技术创新点在于发现了long-CoT SFT和RL在VLM推理中存在的“协同困境”，即两种方法单独使用时各有优势，但组合使用时未能产生累加效益，反而导致性能权衡。这一发现挑战了现有认知，并为未来的研究方向提供了新的思路。

关键设计：论文的关键设计包括：1) 细致的实验设计，对比SFT和RL在不同难度问题上的表现；2) 多种组合训练策略的探索，包括两阶段、交错、渐进式训练以及数据混合和模型融合；3) 对VLM的推理风格和响应长度进行分析，以更全面地理解不同训练策略的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SFT擅长解决难题，但会降低简单问题的性能，并引入冗余信息；RL则能提升整体性能和简洁性，但在难题上的提升不如SFT显著。令人惊讶的是，多种组合策略，包括两阶段、交错、渐进式训练以及数据混合和模型融合，均未能实现性能的累加，反而导致了准确率、推理风格和响应长度的权衡。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在复杂场景下的推理能力，例如智能问答、图像理解、视觉导航等领域。通过更深入地理解后训练技术的协同作用，可以开发出更有效的训练方法，从而提高VLM在实际应用中的性能和可靠性。未来的研究可以探索更无缝和自适应的组合训练方法，以充分释放后训练技术的潜力。

📄 摘要（原文）

Large vision-language models (VLMs) increasingly adopt post-training techniques such as long chain-of-thought (CoT) supervised fine-tuning (SFT) and reinforcement learning (RL) to elicit sophisticated reasoning. While these methods exhibit synergy in language-only models, their joint effectiveness in VLMs remains uncertain. We present a systematic investigation into the distinct roles and interplay of long-CoT SFT and RL across multiple multimodal reasoning benchmarks. We find that SFT improves performance on difficult questions by in-depth, structured reasoning, but introduces verbosity and degrades performance on simpler ones. In contrast, RL promotes generalization and brevity, yielding consistent improvements across all difficulty levels, though the improvements on the hardest questions are less prominent compared to SFT. Surprisingly, combining them through two-staged, interleaved, or progressive training strategies, as well as data mixing and model merging, all fails to produce additive benefits, instead leading to trade-offs in accuracy, reasoning style, and response length. This ``synergy dilemma'' highlights the need for more seamless and adaptive approaches to unlock the full potential of combined post-training techniques for reasoning VLMs.

The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理