Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning

作者: Zihua Zhao, Feng Hong, Mengxi Chen, Pengyi Chen, Benyuan Liu, Jiangchao Yao, Ya Zhang, Yanfeng Wang

分类: cs.CV, cs.LG

发布日期: 2025-07-17

🔗 代码/项目: GITHUB

💡 一句话要点

提出差分信息引导的样本选择方法DISSect，加速多模态对比学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 对比学习 样本选择 噪声对应 差分信息

📋 核心要点

现有样本选择方法在冷启动场景受限，或未能充分考虑噪声对应关系，影响多模态对比学习效率。
DISSect利用当前模型与历史模型的预测差异，更准确地识别噪声样本，指导样本选择。
实验表明，DISSect在多个数据集和下游任务上优于现有方法，验证了其有效性。

📝 摘要（中文）

基于对比学习的多模态模型取得了显著成功，但其训练依赖于大规模数据集和高昂的计算资源。样本选择作为一种高效的替代方案，为加速训练过程提供了一个方向。然而，现有的样本选择方法要么依赖于预言模型离线选择高质量核心集，这在冷启动场景中受到限制；要么侧重于基于实时模型预测的在线选择，但没有充分或有效地考虑噪声对应关系。为了解决这一困境，我们提出了一种新颖的差分信息引导的样本选择（DISSect）方法，该方法能够准确有效地识别噪声对应关系，从而加速训练。具体而言，我们重新思考了噪声对应关系对对比学习的影响，并提出当前模型预测的相关性与历史模型预测的相关性之间的差异，更能有效地表征样本质量。基于此，我们构建了一个鲁棒的基于差分的样本选择方法，并分析了其理论依据。在三个基准数据集和各种下游任务上的大量实验表明，DISSect相对于当前最先进的方法具有一致的优越性。

🔬 方法详解

问题定义：多模态对比学习需要大量数据和计算资源，而数据中存在的噪声对应关系会降低学习效率。现有的样本选择方法要么依赖预训练模型，无法在冷启动场景中使用，要么没有充分考虑噪声对应关系，导致选择的样本质量不高。因此，如何高效准确地识别并排除噪声样本，加速多模态对比学习是本文要解决的问题。

核心思路：论文的核心思路是利用模型在训练过程中的预测差异来判断样本质量。作者认为，如果一个样本的预测结果在相邻的训练迭代中变化很大，那么这个样本很可能是一个噪声样本。通过比较当前模型和历史模型的预测结果，可以更有效地识别这些噪声样本，从而提高样本选择的准确性。

技术框架：DISSect方法主要包含以下几个阶段：1）使用当前模型和历史模型对样本进行预测，得到样本的相似度得分；2）计算当前模型和历史模型预测得分的差分；3）基于差分值，对样本进行排序，选择高质量的样本子集；4）使用选择的样本子集进行对比学习训练。历史模型可以是之前迭代的模型参数的滑动平均。

关键创新：DISSect的关键创新在于利用了模型预测的差分信息来指导样本选择。与传统的基于模型预测得分的样本选择方法不同，DISSect关注的是模型预测的不稳定性，这使得它能够更有效地识别噪声样本。此外，DISSect不需要预训练模型，可以在冷启动场景中使用。

关键设计：DISSect的关键设计包括：1）历史模型的选择，可以使用滑动平均等方法来维护一个稳定的历史模型；2）差分值的计算方式，可以使用绝对值差分或相对差分等方法；3）样本选择策略，可以使用Top-K选择或基于阈值的选择等方法。损失函数仍然采用对比学习常用的InfoNCE损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DISSect在三个基准数据集上均优于现有的样本选择方法。例如，在Image-Text Retrieval任务中，DISSect在Recall@1指标上相比基线方法提升了3%-5%。此外，DISSect还能够显著加速模型训练，在保证性能的同时，降低了计算成本。

🎯 应用场景

DISSect可应用于各种多模态学习任务，例如图像文本检索、视频描述生成等。通过加速模型训练，降低计算成本，有助于推动多模态人工智能技术在实际场景中的应用，例如智能客服、内容推荐、自动驾驶等。

📄 摘要（原文）

The remarkable success of contrastive-learning-based multimodal models has been greatly driven by training on ever-larger datasets with expensive compute consumption. Sample selection as an alternative efficient paradigm plays an important direction to accelerate the training process. However, recent advances on sample selection either mostly rely on an oracle model to offline select a high-quality coreset, which is limited in the cold-start scenarios, or focus on online selection based on real-time model predictions, which has not sufficiently or efficiently considered the noisy correspondence. To address this dilemma, we propose a novel Differential-Informed Sample Selection (DISSect) method, which accurately and efficiently discriminates the noisy correspondence for training acceleration. Specifically, we rethink the impact of noisy correspondence on contrastive learning and propose that the differential between the predicted correlation of the current model and that of a historical model is more informative to characterize sample quality. Based on this, we construct a robust differential-based sample selection and analyze its theoretical insights. Extensive experiments on three benchmark datasets and various downstream tasks demonstrate the consistent superiority of DISSect over current state-of-the-art methods. Source code is available at: https://github.com/MediaBrain-SJTU/DISSect.

Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理