Multimodal Dataset Distillation via Phased Teacher Models

作者: Shengbin Guo, Hang Zhao, Senqiao Yang, Chenyang Jiang, Yuhang Cheng, Xiangru Peng, Rui Shao, Zhuotao Tian

分类: cs.CV

发布日期: 2026-03-26

备注: Accepted to ICLR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出PTM-ST框架，解决多模态数据集蒸馏中教师模型知识动态演化捕捉不足的问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 数据集蒸馏 知识迁移 教师模型 阶段训练

📋 核心要点

现有方法在多模态数据集蒸馏中，难以捕捉教师模型训练后期动态演化的知识，导致学生模型性能下降。
PTM-ST框架通过阶段感知的教师建模和捷径轨迹构建，准确拟合教师在不同阶段的学习动态，提升蒸馏的稳定性和表达性。
实验表明，PTM-ST能有效缓解优化振荡和阶段间知识差距，并在Flickr30k和COCO数据集上超越现有方法。

📝 摘要（中文）

多模态数据集蒸馏旨在构建紧凑的合成数据集，以实现大规模图像-文本数据的高效压缩和知识迁移。然而，现有方法通常无法捕捉教师模型在训练后期阶段嵌入的复杂、动态演化的知识。这种局限性导致学生性能下降，并损害了蒸馏数据的质量。为了解决跨阶段性能差距明显和教师轨迹不稳定等关键挑战，我们提出了具有捷径轨迹的分阶段教师模型（PTM-ST）——一种新颖的分阶段蒸馏框架。PTM-ST利用阶段感知的教师建模和基于捷径的轨迹构建策略，来准确拟合教师在不同训练阶段的学习动态，从而增强蒸馏过程的稳定性和表达性。通过理论分析和全面的实验，我们表明PTM-ST显著缓解了优化振荡和阶段间知识差距，同时还降低了存储开销。我们的方法在Flickr30k和COCO上始终优于最先进的基线，在Flickr30k上实现了高达13.5%的绝对改进和平均9.53%的增益。

🔬 方法详解

问题定义：多模态数据集蒸馏旨在用少量合成数据，保留大规模图像-文本数据集中的关键信息，以便高效训练模型。现有方法的痛点在于，它们无法充分捕捉教师模型在整个训练过程中，特别是后期阶段，知识动态演化的过程，导致蒸馏出的数据集质量不高，学生模型性能受限。

核心思路：PTM-ST的核心思路是将教师模型的训练过程划分为多个阶段，并为每个阶段构建一个专门的教师模型，同时引入捷径连接来平滑不同阶段之间的知识迁移。通过这种方式，PTM-ST能够更准确地捕捉教师模型在不同阶段的学习动态，从而提高蒸馏数据集的质量和学生模型的性能。这样设计的目的是为了解决传统方法中教师模型知识表示能力不足，以及训练过程不稳定导致的问题。

技术框架：PTM-ST框架主要包含以下几个阶段：1) 阶段划分：将教师模型的训练过程划分为多个阶段。2) 阶段感知教师建模：为每个阶段训练一个独立的教师模型，使其能够专注于捕捉该阶段的知识。3) 捷径轨迹构建：在不同阶段的教师模型之间建立捷径连接，以平滑知识迁移，减少阶段间的知识差距。4) 数据集蒸馏：利用训练好的分阶段教师模型，生成紧凑的合成数据集。

关键创新：PTM-ST的关键创新在于其分阶段的教师建模方法和捷径轨迹构建策略。与传统方法使用单个教师模型不同，PTM-ST为每个训练阶段构建专门的教师模型，从而能够更准确地捕捉教师模型在不同阶段的学习动态。捷径轨迹的引入则进一步平滑了阶段间的知识迁移，提高了蒸馏过程的稳定性。

关键设计：PTM-ST的关键设计包括：1) 阶段划分策略：如何合理地划分训练阶段，以保证每个阶段的教师模型能够充分学习到该阶段的知识。2) 捷径连接方式：如何选择合适的捷径连接方式，以平衡知识迁移的效率和稳定性。3) 损失函数设计：如何设计损失函数，以引导学生模型学习教师模型的知识，并保证蒸馏数据集的质量。具体参数设置和网络结构细节在论文中有详细描述，此处不再赘述。

🖼️ 关键图片

📊 实验亮点

PTM-ST在Flickr30k和COCO数据集上取得了显著的性能提升。在Flickr30k数据集上，PTM-ST相比现有最佳方法，实现了高达13.5%的绝对改进，平均增益达到9.53%。这些结果表明，PTM-ST能够更有效地捕捉教师模型的知识，并生成更高质量的蒸馏数据集。

🎯 应用场景

PTM-ST框架可应用于各种需要多模态数据压缩和知识迁移的场景，例如：移动设备上的图像-文本检索、低资源环境下的视觉问答、以及大规模多模态数据的预训练等。该研究有助于降低模型部署成本，提高模型在资源受限环境下的性能，并促进多模态学习的进一步发展。

📄 摘要（原文）

Multimodal dataset distillation aims to construct compact synthetic datasets that enable efficient compression and knowledge transfer from large-scale image-text data. However, existing approaches often fail to capture the complex, dynamically evolving knowledge embedded in the later training stages of teacher models. This limitation leads to degraded student performance and compromises the quality of the distilled data. To address critical challenges such as pronounced cross-stage performance gaps and unstable teacher trajectories, we propose Phased Teacher Model with Shortcut Trajectory (PTM-ST) -- a novel phased distillation framework. PTM-ST leverages stage-aware teacher modeling and a shortcut-based trajectory construction strategy to accurately fit the teacher's learning dynamics across distinct training phases. This enhances both the stability and expressiveness of the distillation process. Through theoretical analysis and comprehensive experiments, we show that PTM-ST significantly mitigates optimization oscillations and inter-phase knowledge gaps, while also reducing storage overhead. Our method consistently surpasses state-of-the-art baselines on Flickr30k and COCO, achieving up to 13.5% absolute improvement and an average gain of 9.53% on Flickr30k. Code: https://github.com/Previsior/PTM-ST.

Multimodal Dataset Distillation via Phased Teacher Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理