Learning from All: Concept Alignment for Autonomous Distillation from Multiple Drifting MLLMs

📄 arXiv: 2510.04142v1 📥 PDF

作者: Xiaoyu Yang, Jie Lu, En Yu

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-05


💡 一句话要点

提出概念对齐的自主蒸馏方法,解决多漂移MLLM的知识蒸馏问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 多模态学习 概念漂移 大型语言模型 自主学习

📋 核心要点

  1. 现有MLLM知识蒸馏方法忽略了多教师模型推理轨迹的概念漂移问题,导致学生模型性能下降。
  2. 提出“学习、比较、批判”范式,通过自主偏好优化(APO)实现概念对齐,解决教师模型漂移问题。
  3. 实验表明,该方法在一致性、鲁棒性和泛化性方面优于现有知识蒸馏方法,并构建了大规模数据集CXR-MAX。

📝 摘要(中文)

本文旨在解决从多模态大型语言模型(MLLM)蒸馏时的一个关键但未被充分探索的挑战:多个漂移教师模型产生的推理轨迹表现出概念漂移,其推理分布不可预测地演变,并将偏差传递给学生模型,最终损害其性能。为了解决这个问题,我们率先建立了概念漂移和知识蒸馏之间的理论联系,将来自多个MLLM教师的非平稳推理动态视为多流推理轨迹的下一个token预测。在概念漂移的指导下,我们引入了“学习、比较、批判”范式,最终实现了自主偏好优化(APO)。在教师的积极指导下,学生模型首先通过比较多个教师来学习和自我提炼首选的思考方式。然后,它对教师的漂移推理进行批判性反思,通过APO执行概念对齐,最终产生一个鲁棒、一致和可泛化的模型。大量的实验证明了我们在知识蒸馏中一致性、鲁棒性和泛化性的优越性能。此外,我们还贡献了一个大规模数据集CXR-MAX(多教师对齐X射线),其中包含170,982个从基于MIMIC-CXR的公开MLLM中提取的蒸馏推理轨迹。我们的代码和数据已公开。

🔬 方法详解

问题定义:论文旨在解决从多个漂移的多模态大型语言模型(MLLM)进行知识蒸馏时,由于教师模型推理轨迹的概念漂移而导致的学生模型性能下降的问题。现有方法通常假设教师模型是静态的,忽略了教师模型推理分布随时间变化带来的偏差,这会传递给学生模型,影响其泛化能力和鲁棒性。

核心思路:论文的核心思路是将概念漂移与知识蒸馏联系起来,将多教师MLLM的非平稳推理动态建模为多流推理轨迹的下一个token预测问题。通过主动学习、比较和批判教师模型的推理过程,学生模型可以识别并纠正教师模型中的概念漂移,从而学习到更鲁棒和一致的知识。

技术框架:整体框架包含三个主要阶段:学习(Learn)、比较(Compare)和批判(Critique)。在学习阶段,学生模型模仿多个教师模型的推理轨迹。在比较阶段,学生模型比较不同教师模型的输出,识别潜在的概念漂移。在批判阶段,学生模型通过自主偏好优化(APO)对齐教师模型的概念,从而学习到更可靠的知识。

关键创新:最重要的技术创新点在于将概念漂移引入知识蒸馏,并提出了“学习、比较、批判”范式和自主偏好优化(APO)方法。与现有方法不同,该方法能够主动识别和纠正教师模型中的概念漂移,从而提高学生模型的鲁棒性和泛化能力。

关键设计:自主偏好优化(APO)是关键设计之一。APO通过奖励学生模型与教师模型一致的推理轨迹,并惩罚不一致的轨迹,从而实现概念对齐。具体的损失函数设计未知,但其目标是最小化学生模型与教师模型之间的推理差异,同时鼓励学生模型生成更一致和可靠的推理轨迹。

📊 实验亮点

实验结果表明,该方法在一致性、鲁棒性和泛化性方面优于现有的知识蒸馏方法。具体性能数据未知,但论文强调了在知识蒸馏中一致性、鲁棒性和泛化性的显著提升。此外,论文还贡献了一个大规模数据集CXR-MAX,为该领域的研究提供了宝贵资源。

🎯 应用场景

该研究成果可应用于各种需要从多个大型语言模型进行知识蒸馏的场景,例如医疗诊断、金融分析和智能客服等。通过解决概念漂移问题,可以提高学生模型的性能和可靠性,使其能够更好地适应复杂和动态的环境。此外,该方法还可以用于构建更鲁棒和可信赖的人工智能系统。

📄 摘要(原文)

This paper identifies a critical yet underexplored challenge in distilling from multimodal large language models (MLLMs): the reasoning trajectories generated by multiple drifting teachers exhibit concept drift, whereby their reasoning distributions evolve unpredictably and transmit biases to the student model, ultimately compromising its performance. To tackle this issue, we pioneer a theoretical connection between concept drift and knowledge distillation, casting the non-stationary reasoning dynamics from multiple MLLM teachers as next-token prediction of multi-stream reasoning trajectories.Guided by concept drift, we introduce the "learn, compare, critique" paradigm, culminating in autonomous preference optimization (APO). Under the active guidance of the teachers, the student model first learns and self-distils preferred thinking by comparing multiple teachers. It then engages in critical reflection over the drifting inference from teachers, performing concept alignment through APO, ultimately yielding a robust, consistent, and generalizable model.Extensive experiments demonstrate our superior performance of consistency, robustness and generalization within knowledge distillation. Besides, we also contributed a large-scale dataset, CXR-MAX (Multi-teachers Alignment X-rays), comprising 170,982 distilled reasoning trajectories derived from publicly accessible MLLMs based on MIMIC-CXR. Our code and data are public at: https://anonymous.4open.science/r/Autonomous-Distillation/.