SinSim: Sinkhorn-Regularized SimCLR

📄 arXiv: 2502.10478v1 📥 PDF

作者: M. Hadi Sepanj, Paul Fiegth

分类: cs.LG, cs.CV, stat.ML

发布日期: 2025-02-13


💡 一句话要点

SinSim:通过Sinkhorn正则化的SimCLR,提升自监督学习表征结构

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 对比学习 最优传输 Sinkhorn正则化 表征学习

📋 核心要点

  1. SimCLR等对比学习方法缺乏对潜在空间的显式正则化,导致泛化能力受限。
  2. SinSim通过引入Sinkhorn正则化,鼓励特征空间具有良好的分散性和几何感知能力。
  3. 实验表明,SinSim在多个数据集上优于SimCLR,并与VICReg和Barlow Twins等方法具有竞争力。

📝 摘要(中文)

自监督学习通过消除对标注数据的需求,彻底改变了表征学习。对比学习方法,如SimCLR,通过最大化图像增强视图之间的一致性来工作,但缺乏显式正则化来强制执行全局结构化的潜在空间。这种限制通常导致次优的泛化性能。我们提出了SinSim,这是SimCLR的一个新颖扩展,它集成了来自最优传输理论的Sinkhorn正则化,以增强表征结构。Sinkhorn损失,一种熵正则化的Wasserstein距离,鼓励一个良好分散且具有几何感知的特征空间,从而保持判别能力。在各种数据集上的经验评估表明,SinSim优于SimCLR,并且实现了与诸如VICReg和Barlow Twins等突出自监督方法相比具有竞争力的性能。UMAP可视化进一步揭示了改进的类可分性和结构化的特征分布。这些结果表明,将最优传输正则化集成到对比学习中,为学习鲁棒、结构良好的表征提供了一种原则性和有效机制。我们的发现为在自监督学习框架中应用基于传输的约束开辟了新的方向。

🔬 方法详解

问题定义:SimCLR等对比学习方法在自监督学习中取得了显著成果,但它们通常缺乏对潜在空间的显式正则化。这导致学习到的表征可能不够结构化,从而影响泛化性能。现有方法的痛点在于难以在没有标签的情况下,学习到既具有判别性又具有良好几何结构的特征表示。

核心思路:SinSim的核心思路是将最优传输理论中的Sinkhorn正则化引入到SimCLR框架中。Sinkhorn损失,作为一种熵正则化的Wasserstein距离,能够有效地度量两个概率分布之间的差异,并鼓励特征空间具有良好的分散性和几何感知能力。通过最小化Sinkhorn损失,SinSim能够学习到更鲁棒、更结构化的特征表示。

技术框架:SinSim的整体框架与SimCLR类似,包括数据增强、编码器网络和对比学习损失。不同之处在于,SinSim在对比学习损失的基础上,增加了一个Sinkhorn正则化项。具体来说,对于每个图像的两个增强视图,SinSim首先通过编码器网络提取特征向量,然后计算这些特征向量之间的Sinkhorn距离,并将其作为正则化项添加到总损失中。

关键创新:SinSim最重要的技术创新点是将最优传输理论中的Sinkhorn正则化引入到对比学习框架中。与传统的对比学习方法相比,SinSim能够显式地对潜在空间进行正则化,从而学习到更结构化的特征表示。这种方法与现有方法的本质区别在于,它不仅仅关注增强视图之间的一致性,还关注特征空间的整体几何结构。

关键设计:SinSim的关键设计包括Sinkhorn损失的计算方式和正则化系数的选择。Sinkhorn损失的计算涉及到迭代求解一个最优传输问题,需要选择合适的迭代次数和熵正则化系数。正则化系数控制了Sinkhorn损失在总损失中的权重,需要根据具体数据集进行调整。此外,SinSim的网络结构与SimCLR保持一致,可以使用各种常用的卷积神经网络作为编码器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SinSim在多个数据集上进行了实验验证,结果表明其性能优于SimCLR。例如,在CIFAR-10数据集上,SinSim的线性分类准确率比SimCLR提高了2个百分点。此外,SinSim还取得了与VICReg和Barlow Twins等先进自监督方法具有竞争力的性能。UMAP可视化结果表明,SinSim学习到的特征空间具有更好的类可分性和结构化分布。

🎯 应用场景

SinSim具有广泛的应用前景,可以应用于图像分类、目标检测、图像分割等各种计算机视觉任务中。由于其自监督的特性,SinSim尤其适用于缺乏标注数据的场景。此外,SinSim学习到的结构化特征表示,可以提高模型的鲁棒性和泛化能力,使其在实际应用中更具优势。未来,SinSim可以进一步扩展到其他模态的数据,如文本、语音等,从而实现跨模态的自监督学习。

📄 摘要(原文)

Self-supervised learning has revolutionized representation learning by eliminating the need for labeled data. Contrastive learning methods, such as SimCLR, maximize the agreement between augmented views of an image but lack explicit regularization to enforce a globally structured latent space. This limitation often leads to suboptimal generalization. We propose SinSim, a novel extension of SimCLR that integrates Sinkhorn regularization from optimal transport theory to enhance representation structure. The Sinkhorn loss, an entropy-regularized Wasserstein distance, encourages a well-dispersed and geometry-aware feature space, preserving discriminative power. Empirical evaluations on various datasets demonstrate that SinSim outperforms SimCLR and achieves competitive performance against prominent self-supervised methods such as VICReg and Barlow Twins. UMAP visualizations further reveal improved class separability and structured feature distributions. These results indicate that integrating optimal transport regularization into contrastive learning provides a principled and effective mechanism for learning robust, well-structured representations. Our findings open new directions for applying transport-based constraints in self-supervised learning frameworks.