OmniThoughtVis: A Scalable Distillation Pipeline for Deployable Multimodal Reasoning Models

📄 arXiv: 2605.11629v1 📥 PDF

作者: Yuanhao Yue, Chengyu Wang, Yuanjie Lyu, Lei Shen, Jun Huang

分类: cs.CL

发布日期: 2026-05-12


💡 一句话要点

提出OmniThoughtVis,用于可部署多模态推理模型的可扩展蒸馏流水线。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 思维链推理 知识蒸馏 模型压缩 视觉语言模型 数据增强 可部署模型

📋 核心要点

  1. 现有MLLM推理能力强,但受限于延迟和资源,难以直接部署。
  2. OmniThoughtVis通过数据管理和蒸馏流水线,将大模型知识迁移到小模型。
  3. 实验表明,蒸馏后的4B模型性能超越未蒸馏的8B模型,提升显著。

📝 摘要(中文)

本文提出OmniThoughtVis,一个可扩展的数据管理和蒸馏流水线,旨在将高容量教师模型的多模态推理能力迁移到更小、面向部署的多模态大语言模型(MLLM)。该流水线从多样化的开源种子池开始,生成结构化的思维链(CoT)轨迹,并联合标注推理难度、答案质量和语义任务标签。为了大规模保持数据质量,结合了基于规则的过滤、难度感知选择和基于标签的多样性采样,最终生成包含180万样本的语料库,支持下游训练的可控子集构建。使用OmniThoughtVis来蒸馏参数量从2B到8B的Qwen3-VL模型,并在九个多模态推理基准上评估它们。结果表明,蒸馏模型在不同模型规模上都表现出持续的提升,其中4B模型在MathVerse上提升高达+16.8,在MMMU-Pro上提升+5.6。值得注意的是,蒸馏后的4B模型在多个任务上匹配甚至超过了未蒸馏的8B基线,突出了可扩展推理蒸馏对于面向部署的MLLM的实际价值。

🔬 方法详解

问题定义:现有的大型多模态语言模型(MLLM)虽然在视觉语言任务上展现出强大的思维链(CoT)推理能力,但由于计算资源和延迟的限制,难以直接部署到实际应用中。小型MLLM更适合在线服务,但其推理性能受到缺乏大规模、高质量多模态CoT监督的限制。因此,需要一种方法将大型模型的推理能力迁移到小型模型,同时保证数据质量和模型性能。

核心思路:论文的核心思路是通过数据蒸馏,将大型教师模型的推理能力迁移到小型学生模型。具体而言,构建一个可扩展的数据管理和蒸馏流水线,生成高质量的多模态CoT数据,并利用这些数据训练小型MLLM。通过精心设计的数据选择和过滤策略,保证训练数据的质量和多样性,从而提高蒸馏模型的性能。

技术框架:OmniThoughtVis流水线包含以下主要模块:1) 数据生成:从开源种子池生成结构化的CoT轨迹。2) 数据标注:联合标注推理难度、答案质量和语义任务标签。3) 数据选择:结合基于规则的过滤、难度感知选择和基于标签的多样性采样,构建高质量的训练数据集。4) 模型蒸馏:使用生成的数据集训练小型MLLM,将大型模型的推理能力迁移到小型模型。

关键创新:该论文的关键创新在于提出了一个可扩展的数据管理和蒸馏流水线,能够高效地生成高质量的多模态CoT数据,并用于训练小型MLLM。与现有方法相比,该方法能够更好地控制数据质量和多样性,从而提高蒸馏模型的性能。此外,难度感知选择和基于标签的多样性采样策略也是重要的创新点。

关键设计:在数据生成阶段,采用了结构化的CoT轨迹生成方法,保证推理过程的可解释性。在数据选择阶段,采用了基于规则的过滤、难度感知选择和基于标签的多样性采样策略,平衡了数据质量和多样性。在模型蒸馏阶段,使用了标准的知识蒸馏方法,将大型模型的知识迁移到小型模型。具体的参数设置和损失函数等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用OmniThoughtVis蒸馏后的Qwen3-VL模型在多个多模态推理基准上取得了显著的性能提升。例如,4B模型在MathVerse上提升高达+16.8,在MMMU-Pro上提升+5.6。更重要的是,蒸馏后的4B模型在多个任务上匹配甚至超过了未蒸馏的8B基线,充分证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要多模态推理能力的实际场景,例如智能客服、自动驾驶、医疗诊断等。通过将大型模型的推理能力迁移到小型模型,可以降低部署成本和延迟,提高系统的响应速度和用户体验。未来,该方法可以进一步扩展到更多模态和任务,为构建更智能、更高效的人工智能系统提供支持。

📄 摘要(原文)

Recent multimodal large language models (MLLMs) have shown strong chain-of-thought (CoT) reasoning ability on vision-language tasks, but their direct deployment in real-world systems is often limited by latency and resource constraints. In practice, smaller MLLMs are preferred for online serving, yet their reasoning performance is bottlenecked by the lack of large-scale, high-quality multimodal CoT supervision. In this paper, we present OmniThoughtVis, a scalable data curation and distillation pipeline for transferring multimodal reasoning capabilities from high-capacity teacher models to smaller, deployment-oriented MLLMs. Starting from a diverse open-source seed pool, our pipeline generates structured CoT traces and performs joint annotation of reasoning difficulty, answer quality, and semantic task tags. To maintain data quality at scale, we combine rule-based filtering, difficulty-aware selection, and tag-based diversity sampling, resulting in a curated corpus of 1.8M samples that supports controllable subset construction for downstream training. We use OmniThoughtVis to distill Qwen3-VL models from 2B to 8B parameters and evaluate them on nine multimodal reasoning benchmarks. The resulting distilled models show consistent gains across model scales, including improvements of up to +16.8 points on MathVerse and +5.6 points on MMMU-Pro for the 4B model. Notably, the distilled 4B model matches or surpasses the undistilled 8B baseline on several tasks, highlighting the practical value of scalable reasoning distillation for deployment-oriented MLLMs.