Aligning Visual Contrastive learning models via Preference Optimization

📄 arXiv: 2411.08923v3 📥 PDF

作者: Amirabbas Afzali, Borna Khodabandeh, Ali Rasekh, Mahyar JafariNodeh, Sepehr kazemi, Simon Gottschalk

分类: cs.CV, cs.LG

发布日期: 2024-11-12 (更新: 2025-03-26)


💡 一句话要点

提出基于偏好优化的对比学习模型对齐方法,提升模型鲁棒性和公平性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对比学习 偏好优化 鲁棒性 公平性 视觉-语言模型 对抗攻击 性别偏见

📋 核心要点

  1. 对比学习模型易受训练数据偏差影响,导致模型在特定任务上表现不佳,鲁棒性不足。
  2. 利用偏好优化方法(如DPO)对齐对比学习模型,使其行为符合期望偏好,从而提升模型性能。
  3. 实验表明,该方法提高了模型对印刷攻击的鲁棒性,并有效缓解了性别偏见,同时保持了下游任务的准确性。

📝 摘要(中文)

对比学习模型在捕捉语义相似性方面表现出色,但其性能受限于训练数据质量和固有偏差。偏好优化(PO)方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),已被用于对齐生成模型与人类偏好,但其在对比学习中的应用尚未被探索。本文提出了一种新方法,利用不同的PO方法训练对比学习模型,以分解复杂概念。该方法系统地将模型行为与期望的偏好对齐,从而提高目标任务的性能。特别地,我们专注于增强模型对印刷攻击和归纳偏见的鲁棒性,这些常见于对比视觉-语言模型(如CLIP)中。实验表明,使用PO训练的模型优于标准对比学习技术,同时保持了处理对抗性挑战的能力,并在其他下游任务上保持了准确性。这使得我们的方法非常适合需要公平性、鲁棒性和与特定偏好对齐的任务。我们评估了该方法在解决图像印刷攻击方面的能力,并探索了其解耦性别概念和减轻性别偏见的能力,展示了该方法的多功能性。

🔬 方法详解

问题定义:现有对比学习模型容易受到训练数据中固有偏差的影响,例如,视觉-语言模型CLIP容易受到印刷攻击和性别偏见的影响。这些偏差会降低模型在特定任务上的性能和鲁棒性。因此,需要一种方法来对齐对比学习模型,使其行为符合期望的偏好,从而提高模型的公平性和鲁棒性。

核心思路:本文的核心思路是利用偏好优化(Preference Optimization, PO)方法来指导对比学习模型的训练。PO方法通过学习人类或其他来源的偏好信号,来调整模型的行为,使其更符合期望。具体来说,本文探索了将RLHF和DPO等PO方法应用于对比学习,以解决模型中的偏差问题。

技术框架:该方法主要包含以下几个阶段:1) 使用对比学习预训练一个视觉-语言模型(例如CLIP);2) 收集偏好数据,例如,对于印刷攻击,可以收集模型对原始图像和攻击图像的预测偏好;对于性别偏见,可以收集模型对不同性别图像的预测偏好;3) 使用PO方法(例如DPO)基于收集到的偏好数据来微调预训练模型。DPO通过直接优化策略来匹配偏好数据,避免了强化学习中复杂的奖励函数设计。

关键创新:该方法的关键创新在于将偏好优化方法引入到对比学习模型的训练中。与传统的对比学习方法不同,该方法不仅关注于学习数据中的相似性,还关注于学习人类或其他来源的偏好,从而可以更好地对齐模型行为与期望的偏好。此外,该方法探索了使用DPO来简化偏好优化过程,避免了强化学习中奖励函数设计的困难。

关键设计:在DPO的实现中,需要定义一个偏好模型,用于预测给定两个样本(例如,原始图像和攻击图像)的偏好概率。该偏好模型通常基于预训练的视觉-语言模型,并使用一个额外的线性层来预测偏好得分。DPO的目标是最大化偏好数据的似然函数,即,使模型预测的偏好概率与实际偏好一致。损失函数通常采用交叉熵损失或hinge loss。此外,还需要仔细选择偏好数据的收集方式,以确保数据能够充分反映期望的偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用偏好优化方法训练的对比学习模型在对抗印刷攻击方面表现出更强的鲁棒性,同时有效缓解了性别偏见。例如,在印刷攻击任务中,该方法可以将模型的准确率提高10%以上。此外,该方法在其他下游任务上保持了与原始模型相当的性能,表明该方法具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要公平性、鲁棒性和与特定偏好对齐的视觉-语言任务。例如,可以用于提高图像搜索系统的公平性,减少对特定人群的歧视;可以用于增强自动驾驶系统对对抗性攻击的鲁棒性,提高系统的安全性;还可以用于个性化推荐系统,使其更符合用户的个人偏好。

📄 摘要(原文)

Contrastive learning models have demonstrated impressive abilities to capture semantic similarities by aligning representations in the embedding space. However, their performance can be limited by the quality of the training data and its inherent biases. While Preference Optimization (PO) methods such as Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have been applied to align generative models with human preferences, their use in contrastive learning has yet to be explored. This paper introduces a novel method for training contrastive learning models using different PO methods to break down complex concepts. Our method systematically aligns model behavior with desired preferences, enhancing performance on the targeted task. In particular, we focus on enhancing model robustness against typographic attacks and inductive biases, commonly seen in contrastive vision-language models like CLIP. Our experiments demonstrate that models trained using PO outperform standard contrastive learning techniques while retaining their ability to handle adversarial challenges and maintain accuracy on other downstream tasks. This makes our method well-suited for tasks requiring fairness, robustness, and alignment with specific preferences. We evaluate our method for tackling typographic attacks on images and explore its ability to disentangle gender concepts and mitigate gender bias, showcasing the versatility of our approach.