MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

📄 arXiv: 2601.21821v1 📥 PDF

作者: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu

分类: cs.CV

发布日期: 2026-01-29


💡 一句话要点

MMFineReason:通过开放数据中心方法弥合多模态推理差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 视觉语言模型 思维链 数据集构建 难度感知学习

📋 核心要点

  1. 现有开源视觉语言模型在视觉推理能力上落后于专有模型,主要原因是缺乏高质量、多样化的推理数据集。
  2. MMFineReason通过大规模数据收集、CoT生成和难度感知选择,构建了一个包含180万样本的高质量多模态推理数据集。
  3. 基于MMFineReason微调的模型在参数效率上表现出色,例如MMFineReason-4B超越了Qwen3-VL-8B-Thinking。

📝 摘要(中文)

视觉语言模型(VLMs)的最新进展显著推动了视觉推理的发展。然而,由于缺乏高质量的推理数据,开源VLMs仍然落后于专有系统。现有数据集对STEM图表和视觉谜题等具有挑战性的领域的覆盖有限,并且缺乏一致的、长篇的思维链(CoT)注释,而这些注释对于激发强大的推理能力至关重要。为了弥合这一差距,我们推出了MMFineReason,这是一个大规模的多模态推理数据集,包含180万个样本和51亿个解决方案token,具有从Qwen3-VL-235B-A22B-Thinking中提炼的高质量推理注释。该数据集通过一个系统的三阶段流程建立:(1)大规模数据收集和标准化,(2)CoT原理生成,以及(3)基于推理质量和难度意识的综合选择。最终数据集涵盖STEM问题、视觉谜题、游戏和复杂图表,每个样本都用视觉基础推理轨迹进行注释。我们在MMFineReason上微调Qwen3-VL-Instruct,以开发MMFineReason-2B/4B/8B版本。我们的模型为它们的大小级别建立了新的最先进的结果。值得注意的是,MMFineReason-4B成功超越了Qwen3-VL-8B-Thinking,而MMFineReason-8B甚至优于Qwen3-VL-30B-A3B-Thinking,同时接近Qwen3-VL-32B-Thinking,展示了卓越的参数效率。至关重要的是,我们通过难度感知过滤策略发现了一种“少即是多”的现象:仅7%(12.3万个样本)的子集实现了与完整数据集相当的性能。值得注意的是,我们揭示了一种协同效应,即面向推理的数据组合同时提升了一般能力。

🔬 方法详解

问题定义:论文旨在解决开源视觉语言模型(VLMs)在复杂视觉推理任务中表现不佳的问题。现有数据集在覆盖范围(如STEM图表、视觉谜题)和标注质量(缺乏长篇CoT)上存在不足,限制了模型推理能力的提升。

核心思路:论文的核心思路是通过构建一个大规模、高质量、多样化的多模态推理数据集MMFineReason,并利用该数据集对开源VLMs进行微调,从而提升其视觉推理能力。数据集构建过程注重推理质量和难度,采用难度感知过滤策略,以提高数据利用效率。

技术框架:MMFineReason数据集的构建包含三个主要阶段: 1. 大规模数据收集和标准化:收集涵盖STEM问题、视觉谜题、游戏和复杂图表等领域的数据,并进行标准化处理。 2. CoT原理生成:利用Qwen3-VL-235B-A22B-Thinking模型生成高质量的思维链(CoT)推理过程。 3. 基于推理质量和难度意识的综合选择:根据推理质量和难度对数据进行筛选,选择高质量且具有挑战性的样本。

基于MMFineReason数据集,论文对Qwen3-VL-Instruct模型进行微调,得到MMFineReason-2B/4B/8B等模型。

关键创新:论文的关键创新在于: 1. 大规模高质量数据集:MMFineReason数据集规模庞大,包含180万样本和51亿token,并具有高质量的CoT标注。 2. 难度感知过滤策略:通过难度感知过滤,发现“少即是多”的现象,即少量高质量数据即可达到甚至超过使用全部数据的效果。 3. 协同效应:证明了面向推理的数据组合可以同时提升模型的一般能力。

关键设计:论文的关键设计包括: 1. 三阶段数据构建流程:确保数据集的多样性、质量和难度。 2. Qwen3-VL-235B-A22B-Thinking模型的使用:用于生成高质量的CoT推理过程。 3. 难度感知过滤策略的具体实现:用于选择最具价值的训练样本。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明,属于未知信息。

📊 实验亮点

MMFineReason-4B模型成功超越了Qwen3-VL-8B-Thinking,而MMFineReason-8B甚至优于Qwen3-VL-30B-A3B-Thinking,同时接近Qwen3-VL-32B-Thinking,展示了卓越的参数效率。此外,仅使用7%的数据子集(12.3万个样本)即可达到与使用完整数据集相当的性能,验证了难度感知过滤策略的有效性。

🎯 应用场景

该研究成果可广泛应用于教育、游戏、科学研究等领域。例如,可以开发更智能的教育辅导系统,帮助学生理解STEM领域的复杂概念;可以构建更具挑战性的视觉谜题和游戏,提升用户的认知能力;还可以辅助科学家进行数据分析和模式识别。未来,该研究有望推动通用人工智能的发展。

📄 摘要(原文)

Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.