MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

📄 arXiv: 2603.08202v1 📥 PDF

作者: Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva

分类: cs.CV, cs.AI

发布日期: 2026-03-09

备注: 18 pages, 11 figures. Accepted at WACV 2026


💡 一句话要点

MM-TS:多模态对比学习中基于长尾数据的温度和Margin动态调整方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多模态学习 对比学习 长尾分布 温度调度 Margin调整 图像-文本检索 视频-文本检索

📋 核心要点

  1. 现有的多模态对比学习方法在处理长尾数据时,难以兼顾整体性能和对稀有类别的学习。
  2. MM-TS通过动态调整对比损失中的温度参数和Margin,自适应地平衡不同样本的吸引和排斥力。
  3. 在多个图像-文本和视频-文本数据集上,MM-TS显著提升了性能,并达到了新的state-of-the-art水平。

📝 摘要(中文)

对比学习已成为单模态和多模态框架中的一种基本方法。这种学习范式拉近正样本对的距离,同时推开负样本对。在单模态设置(例如,基于图像的学习)中,先前的研究表明,这些力的强度可以通过温度参数来控制。在这项工作中,我们提出了多模态温度和Margin调整策略(MM-TS),将单模态温度调整的概念扩展到多模态对比学习。我们的方法在训练期间动态调整对比损失中的温度,从而调节多模态设置中的吸引力和排斥力。此外,考虑到标准多模态数据集通常遵循不平衡的长尾分布,我们根据每个训练样本的局部分布来调整温度。具体来说,来自密集聚类的样本被分配更高的温度,以更好地保持其语义结构。此外,我们证明了温度调整可以有效地集成到最大Margin框架中,从而统一了多模态对比学习中的两种主要方法:InfoNCE损失和最大Margin目标。我们在四个广泛使用的图像和视频语言数据集Flickr30K、MSCOCO、EPIC-KITCHENS-100和YouCook2上评估了我们的方法,并表明我们的动态温度和Margin调整策略提高了性能,并在该领域取得了新的state-of-the-art结果。

🔬 方法详解

问题定义:论文旨在解决多模态对比学习中,数据集存在长尾分布时,模型训练不充分的问题。现有方法通常采用固定的温度参数,无法根据样本的分布情况自适应地调整对比学习的力度,导致模型在头部类别上表现良好,但在尾部类别上性能较差。

核心思路:论文的核心思路是根据样本的局部密度动态调整对比损失中的温度参数和Margin。对于来自密集聚类的样本,分配更高的温度,以更好地保持其语义结构;同时,将温度调整策略集成到最大Margin框架中,统一InfoNCE损失和最大Margin目标。

技术框架:MM-TS方法主要包含以下几个阶段:1) 特征提取:使用预训练模型提取图像、视频和文本的特征;2) 温度和Margin调度:根据样本的局部密度动态调整温度参数和Margin;3) 对比学习:使用调整后的温度和Margin进行对比学习,优化模型参数。

关键创新:论文的关键创新在于提出了多模态温度和Margin调度策略(MM-TS),该策略能够根据样本的局部密度自适应地调整对比学习的力度,从而更好地处理长尾数据。此外,论文还证明了温度调整可以有效地集成到最大Margin框架中,统一了InfoNCE损失和最大Margin目标。

关键设计:MM-TS的关键设计包括:1) 温度调度函数:根据样本的局部密度(例如,样本所属类别的样本数量)动态调整温度参数;2) Margin调度函数:类似地,根据样本密度调整Margin;3) 损失函数:结合InfoNCE损失和最大Margin损失,并使用动态调整的温度和Margin进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MM-TS在Flickr30K、MSCOCO、EPIC-KITCHENS-100和YouCook2四个数据集上进行了评估,并在所有数据集上都取得了显著的性能提升。例如,在EPIC-KITCHENS-100数据集上,MM-TS相较于现有方法取得了state-of-the-art的结果,证明了其在处理长尾多模态数据方面的有效性。

🎯 应用场景

该研究成果可广泛应用于图像-文本检索、视频-文本检索、跨模态内容理解等领域。通过提升模型在长尾数据上的性能,可以改善实际应用中对罕见事件或物体的识别能力,例如在安防监控中识别异常行为,或在医疗影像分析中检测罕见疾病。

📄 摘要(原文)

Contrastive learning has become a fundamental approach in both uni-modal and multi-modal frameworks. This learning paradigm pulls positive pairs of samples closer while pushing negatives apart. In the uni-modal setting (e.g., image-based learning), previous research has shown that the strength of these forces can be controlled through the temperature parameter. In this work, we propose Multi-Modal Temperature and Margin Schedules (MM-TS), extending the concept of uni-modal temperature scheduling to multi-modal contrastive learning. Our method dynamically adjusts the temperature in the contrastive loss during training, modulating the attraction and repulsion forces in the multi-modal setting. Additionally, recognizing that standard multi-modal datasets often follow imbalanced, long-tail distributions, we adapt the temperature based on the local distribution of each training sample. Specifically, samples from dense clusters are assigned a higher temperature to better preserve their semantic structure. Furthermore, we demonstrate that temperature scheduling can be effectively integrated within a max-margin framework, thereby unifying the two predominant approaches in multi-modal contrastive learning: InfoNCE loss and max-margin objective. We evaluate our approach on four widely used image- and video-language datasets, Flickr30K, MSCOCO, EPIC-KITCHENS-100, and YouCook2, and show that our dynamic temperature and margin schedules improve performance and lead to new state-of-the-art results in the field.