CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder
作者: Yongmin Lee, Hye Won Chung
分类: cs.CV, cs.LG
发布日期: 2025-10-21
备注: NeurIPS 2025
💡 一句话要点
CovMatch:通过跨协方差引导和可训练文本编码器实现多模态数据集蒸馏
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 数据集蒸馏 跨模态对齐 视觉-语言模型 对比学习
📋 核心要点
- 多模态数据集蒸馏面临跨模态对齐和高计算成本的挑战,现有方法冻结文本编码器限制了性能。
- CovMatch通过对齐真实和合成特征的跨协方差,并规范化模态内特征分布,实现编码器的联合优化。
- 实验表明,CovMatch在Flickr30K和COCO上优于现有方法,仅用少量合成数据即可显著提升检索准确率。
📝 摘要(中文)
多模态数据集蒸馏旨在合成一小组图像-文本对,以实现大规模视觉-语言模型的高效训练。虽然数据集蒸馏在单模态任务中表现出前景,但将其扩展到多模态对比学习提出了关键挑战:学习跨模态对齐以及管理大型编码器的高计算成本。先前的方法通过冻结文本编码器并仅更新图像编码器和文本投影层来解决可扩展性问题。然而,我们发现这严重限制了语义对齐,并成为性能扩展的瓶颈。我们提出了CovMatch,一个可扩展的数据集蒸馏框架,它对齐真实和合成特征的跨协方差,同时规范化每个模态内的特征分布。与先前的方法不同,CovMatch 能够联合优化两个编码器,从而实现更强的跨模态对齐并提高性能。在 Flickr30K 和 COCO 上的评估表明,CovMatch 优于最先进的多模态蒸馏方法,并且仅使用 500 个合成对即可在检索准确率方面实现高达 6.8% 的绝对收益。
🔬 方法详解
问题定义:多模态数据集蒸馏旨在用少量合成数据训练大型视觉-语言模型。现有方法为了降低计算成本,通常冻结文本编码器,只更新图像编码器和文本投影层。这种做法严重限制了跨模态语义对齐,成为性能提升的瓶颈。
核心思路:CovMatch的核心思路是联合优化图像和文本编码器,通过对齐真实数据和合成数据的跨模态特征协方差,以及规范化模态内的特征分布,来提升跨模态对齐效果。这样设计的原因是,跨模态协方差能够捕捉不同模态之间的关联性,而模态内特征分布的规范化有助于提高特征的表达能力。
技术框架:CovMatch框架包含图像编码器、文本编码器、图像特征提取模块、文本特征提取模块、跨协方差对齐模块和模态内特征规范化模块。首先,图像和文本数据分别通过各自的编码器提取特征。然后,计算真实数据和合成数据的跨模态特征协方差,并通过损失函数进行对齐。同时,对每个模态内的特征分布进行规范化,以提高特征的表达能力。最后,联合优化图像和文本编码器,以及其他相关参数。
关键创新:CovMatch的关键创新在于实现了图像和文本编码器的联合优化,克服了现有方法中冻结文本编码器带来的性能瓶颈。通过跨协方差对齐和模态内特征规范化,能够更有效地学习跨模态语义对齐,从而提高模型的性能。
关键设计:CovMatch的关键设计包括:1) 使用可训练的文本编码器,允许模型学习更丰富的文本表示;2) 引入跨协方差对齐损失,促使合成数据学习真实数据的跨模态关联;3) 采用模态内特征规范化,提高特征的表达能力和泛化能力。具体的损失函数设计和网络结构选择需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
CovMatch在Flickr30K和COCO数据集上取得了显著的性能提升。例如,在COCO数据集上,仅使用500个合成图像-文本对,CovMatch在图像检索任务中取得了高达6.8%的绝对收益,超过了现有的最先进方法。实验结果表明,CovMatch能够有效地学习跨模态语义对齐,并提高模型的泛化能力。
🎯 应用场景
CovMatch可应用于各种需要高效训练大规模视觉-语言模型的场景,例如图像检索、视觉问答、图像描述生成等。通过使用少量合成数据进行训练,可以显著降低计算成本和数据需求,加速模型的开发和部署。该方法还有潜力应用于其他多模态学习任务,例如视频理解、语音识别等。
📄 摘要(原文)
Multimodal dataset distillation aims to synthesize a small set of image-text pairs that enables efficient training of large-scale vision-language models. While dataset distillation has shown promise in unimodal tasks, extending it to multimodal contrastive learning presents key challenges: learning cross-modal alignment and managing the high computational cost of large encoders. Prior approaches address scalability by freezing the text encoder and update only the image encoder and text projection layer. However, we find this severely limits semantic alignment and becomes a bottleneck for performance scaling. We propose CovMatch, a scalable dataset distillation framework that aligns the cross-covariance of real and synthetic features while regularizing feature distributions within each modality. Unlike prior approaches, CovMatch enables joint optimization of both encoders, leading to stronger cross-modal alignment and improved performance. Evaluated on Flickr30K and COCO, CovMatch outperforms state-of-the-art multimodal distillation methods and achieves up to 6.8% absolute gains in retrieval accuracy using only 500 synthetic pairs.