Empowering Lightweight MLLMs with Reasoning via Long CoT SFT

作者: Linyu Ou, YuYang Yin

分类: cs.CV

发布日期: 2025-09-03 (更新: 2025-10-09)

💡 一句话要点

长CoT SFT赋能轻量级MLLM推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 轻量级MLLM 推理能力 长链式思考 监督式微调 多模态学习

📋 核心要点

现有方法难以有效提升轻量级多模态语言模型（MLLM）的推理能力。
通过长链式思考（long CoT）数据的监督式微调（SFT）来增强MLLM的推理能力。
实验表明，长CoT SFT能显著提升MLLM推理能力，且为后续强化学习奠定基础。

📝 摘要（中文）

尽管使用可验证奖励的强化学习已经增强了大规模语言模型（LLM）的推理能力，但其在参数少于70亿的轻量级多模态语言模型（MLLM）上的有效性仍未被充分探索。本文研究了长链式思考（long CoT）数据在增强此类MLLM推理能力中的作用。我们的研究结果表明，使用长CoT数据进行监督式微调（SFT）可以显著提高MLLM的推理能力。此外，我们观察到，在初始SFT阶段之后，MLLM可以通过后续的强化学习阶段获得额外的性能提升。我们得出结论，使用长CoT数据进行SFT阶段是开发轻量级MLLM推理能力的关键先决条件。

🔬 方法详解

问题定义：论文旨在解决轻量级多模态语言模型（MLLM）推理能力不足的问题。现有方法，特别是针对大规模语言模型（LLM）的强化学习方法，在直接应用于轻量级MLLM时效果不佳，无法充分挖掘其推理潜力。因此，如何有效提升轻量级MLLM的推理能力是一个关键挑战。

核心思路：论文的核心思路是利用长链式思考（long CoT）数据进行监督式微调（SFT），从而使MLLM能够学习到更复杂的推理过程。长CoT数据提供了详细的推理步骤，有助于模型理解问题并生成更合理的答案。这种方法旨在通过SFT为后续的强化学习阶段奠定基础。

技术框架：整体框架包含两个主要阶段：首先是使用长CoT数据进行监督式微调（SFT），然后是可选的强化学习阶段。SFT阶段的目标是使MLLM学习长CoT数据中的推理模式。强化学习阶段则进一步优化模型的推理能力，使其能够更好地应对复杂问题。

关键创新：最重要的技术创新点在于强调了长CoT数据在轻量级MLLM推理能力提升中的关键作用。与直接应用强化学习方法不同，论文提出首先通过SFT使模型具备基本的推理能力，然后再进行强化学习，从而更有效地利用了轻量级MLLM的计算资源。

关键设计：论文的关键设计在于长CoT数据的选择和SFT阶段的训练策略。具体来说，需要选择包含详细推理步骤的长CoT数据，并设计合适的损失函数和训练参数，以确保模型能够充分学习到推理过程。此外，强化学习阶段的具体实现（例如，奖励函数的设计）也是影响最终性能的关键因素。

📊 实验亮点

论文的主要实验结果表明，通过长CoT SFT，轻量级MLLM的推理能力得到了显著提升。此外，在SFT之后进行强化学习可以进一步提高性能。这些结果表明，长CoT SFT是提升轻量级MLLM推理能力的关键步骤，为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于各种需要轻量级多模态推理能力的场景，例如移动设备上的智能助手、嵌入式视觉问答系统、以及资源受限环境下的机器人导航等。通过提升轻量级MLLM的推理能力，可以使其在实际应用中更加可靠和高效，从而拓展其应用范围。

📄 摘要（原文）

While Reinforcement Learning with Verifiable Rewards has enhanced the reasoning of large-scale language models (LLMs), its efficacy for lightweight multimodal language models (MLLMs) with fewer than seven billion parameters remains underexplored. This paper investigates the role of long Chain-of-Thought (long CoT) data in enhancing the reasoning abilities of such MLLMs. Our findings demonstrate that Supervised Fine-Tuning (SFT) with long CoT data significantly improves MLLM reasoning. Furthermore, we observe that after this initial SFT phase, MLLMs can achieve additional performance gains through a subsequent RL stage. We conclude that a SFT stage with long CoT data is a critical prerequisite for developing the reasoning capabilities of lightweight MLLMs.

Empowering Lightweight MLLMs with Reasoning via Long CoT SFT

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册