Empowering Lightweight MLLMs with Reasoning via Long CoT SFT

📄 arXiv: 2509.03321v2 📥 PDF

作者: Linyu Ou, YuYang Yin

分类: cs.CV

发布日期: 2025-09-03 (更新: 2025-10-09)


💡 一句话要点

长CoT SFT赋能轻量级MLLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轻量级MLLM 推理能力 长链式思考 监督式微调 多模态学习

📋 核心要点

  1. 现有方法难以有效提升轻量级多模态语言模型(MLLM)的推理能力。
  2. 通过长链式思考(long CoT)数据的监督式微调(SFT)来增强MLLM的推理能力。
  3. 实验表明,长CoT SFT能显著提升MLLM推理能力,且为后续强化学习奠定基础。

📝 摘要(中文)

尽管使用可验证奖励的强化学习已经增强了大规模语言模型(LLM)的推理能力,但其在参数少于70亿的轻量级多模态语言模型(MLLM)上的有效性仍未被充分探索。本文研究了长链式思考(long CoT)数据在增强此类MLLM推理能力中的作用。我们的研究结果表明,使用长CoT数据进行监督式微调(SFT)可以显著提高MLLM的推理能力。此外,我们观察到,在初始SFT阶段之后,MLLM可以通过后续的强化学习阶段获得额外的性能提升。我们得出结论,使用长CoT数据进行SFT阶段是开发轻量级MLLM推理能力的关键先决条件。

🔬 方法详解

问题定义:论文旨在解决轻量级多模态语言模型(MLLM)推理能力不足的问题。现有方法,特别是针对大规模语言模型(LLM)的强化学习方法,在直接应用于轻量级MLLM时效果不佳,无法充分挖掘其推理潜力。因此,如何有效提升轻量级MLLM的推理能力是一个关键挑战。

核心思路:论文的核心思路是利用长链式思考(long CoT)数据进行监督式微调(SFT),从而使MLLM能够学习到更复杂的推理过程。长CoT数据提供了详细的推理步骤,有助于模型理解问题并生成更合理的答案。这种方法旨在通过SFT为后续的强化学习阶段奠定基础。

技术框架:整体框架包含两个主要阶段:首先是使用长CoT数据进行监督式微调(SFT),然后是可选的强化学习阶段。SFT阶段的目标是使MLLM学习长CoT数据中的推理模式。强化学习阶段则进一步优化模型的推理能力,使其能够更好地应对复杂问题。

关键创新:最重要的技术创新点在于强调了长CoT数据在轻量级MLLM推理能力提升中的关键作用。与直接应用强化学习方法不同,论文提出首先通过SFT使模型具备基本的推理能力,然后再进行强化学习,从而更有效地利用了轻量级MLLM的计算资源。

关键设计:论文的关键设计在于长CoT数据的选择和SFT阶段的训练策略。具体来说,需要选择包含详细推理步骤的长CoT数据,并设计合适的损失函数和训练参数,以确保模型能够充分学习到推理过程。此外,强化学习阶段的具体实现(例如,奖励函数的设计)也是影响最终性能的关键因素。

📊 实验亮点

论文的主要实验结果表明,通过长CoT SFT,轻量级MLLM的推理能力得到了显著提升。此外,在SFT之后进行强化学习可以进一步提高性能。这些结果表明,长CoT SFT是提升轻量级MLLM推理能力的关键步骤,为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于各种需要轻量级多模态推理能力的场景,例如移动设备上的智能助手、嵌入式视觉问答系统、以及资源受限环境下的机器人导航等。通过提升轻量级MLLM的推理能力,可以使其在实际应用中更加可靠和高效,从而拓展其应用范围。

📄 摘要(原文)

While Reinforcement Learning with Verifiable Rewards has enhanced the reasoning of large-scale language models (LLMs), its efficacy for lightweight multimodal language models (MLLMs) with fewer than seven billion parameters remains underexplored. This paper investigates the role of long Chain-of-Thought (long CoT) data in enhancing the reasoning abilities of such MLLMs. Our findings demonstrate that Supervised Fine-Tuning (SFT) with long CoT data significantly improves MLLM reasoning. Furthermore, we observe that after this initial SFT phase, MLLMs can achieve additional performance gains through a subsequent RL stage. We conclude that a SFT stage with long CoT data is a critical prerequisite for developing the reasoning capabilities of lightweight MLLMs.