Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization
作者: Xintong Li, Chuhan Wang, Junda Wu, Rohan Surana, Tong Yu, Julian McAuley, Jingbo Shang
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-09-30
备注: Preprint
💡 一句话要点
MISP-DPO:通过重要性采样和多负例提升多模态直接偏好优化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 直接偏好优化 负例采样 重要性采样 视觉-语言模型 语义偏差 Plackett-Luce模型
📋 核心要点
- 现有视觉-语言DPO方法依赖于单一负例,无法充分捕捉多模态偏好的复杂性,导致优化偏差和幻觉问题。
- MISP-DPO通过Plackett-Luce模型引入多个语义上不同的负例,并利用稀疏自编码器提取语义偏差,提供更全面的监督信号。
- 实验表明,MISP-DPO在多个基准测试中显著提升了多模态对齐效果,验证了语义感知多负例采样的有效性。
📝 摘要(中文)
直接偏好优化(DPO)最近已从纯文本模型扩展到视觉-语言模型。然而,现有方法依赖于过度简化的成对比较,通过基本扰动或基于相似性的检索生成单个负例图像,无法捕捉多模态偏好的复杂性,从而导致优化偏差和幻觉。为了解决这个问题,我们提出了MISP-DPO,这是第一个通过Plackett-Luce模型在多模态DPO中引入多个、语义上不同的负例图像的框架。我们的方法将提示和候选图像嵌入到CLIP(对比语言-图像预训练)空间中,并应用稀疏自编码器来揭示语义偏差为可解释的因素。负样本的选择基于重建难度、与正例的语义偏差以及相互多样性,从而产生更广泛和更具信息量的监督。为了处理多负例比较,我们采用Plackett-Luce目标,并引入了一种提高训练效率的重要性采样策略。在五个不同的基准测试中进行的实验表明,MISP-DPO始终优于先前的方法,从而验证了基于偏好的学习中语义感知的多负例采样的有效性。
🔬 方法详解
问题定义:现有的多模态直接偏好优化方法通常采用简化的成对比较,仅使用单个负例图像。这些负例图像通常是通过简单的扰动或基于相似性的检索生成的,无法充分代表真实世界中复杂的多模态偏好。这导致模型训练时产生偏差,并可能出现幻觉现象,即生成与输入不一致的内容。
核心思路:MISP-DPO的核心思路是通过引入多个、语义上不同的负例图像来更全面地捕捉多模态偏好。该方法利用Plackett-Luce模型来处理多负例比较,并采用重要性采样策略来提高训练效率。通过选择具有不同语义偏差的负例,模型可以学习更鲁棒的偏好表示,从而减少偏差和幻觉。
技术框架:MISP-DPO的整体框架包括以下几个主要模块:1) 特征提取:使用CLIP模型将文本提示和候选图像嵌入到共享的特征空间中。2) 语义偏差提取:应用稀疏自编码器来揭示CLIP特征空间中的语义偏差,将这些偏差分解为可解释的因素。3) 负例选择:基于重建难度、与正例的语义偏差以及相互多样性,选择多个负例图像。4) 偏好学习:使用Plackett-Luce目标函数进行偏好学习,并采用重要性采样策略来加速训练。
关键创新:MISP-DPO最重要的技术创新点在于其语义感知的多负例采样策略。与现有方法仅使用单个或相似负例不同,MISP-DPO通过分析CLIP特征空间中的语义偏差,选择多个具有不同语义信息的负例。这种策略能够提供更全面、更具信息量的监督信号,从而提高模型的偏好学习能力。
关键设计:在负例选择方面,MISP-DPO的关键设计包括:1) 重建难度:选择重建难度高的样本作为负例,因为这些样本可能包含模型难以理解的语义信息。2) 语义偏差:选择与正例具有较大语义偏差的样本作为负例,以增加负例的多样性。3) 相互多样性:确保选择的负例之间也具有一定的差异性,避免选择过于相似的负例。在偏好学习方面,MISP-DPO使用Plackett-Luce损失函数来处理多负例比较,并采用重要性采样策略来平衡不同负例的贡献。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MISP-DPO在五个不同的基准测试中始终优于先前的方法。例如,在视觉问答任务中,MISP-DPO相比于基线方法取得了显著的性能提升,验证了语义感知的多负例采样在偏好学习中的有效性。具体提升幅度未知,原文未给出具体数值。
🎯 应用场景
MISP-DPO具有广泛的应用前景,例如在图像生成、视觉问答、多模态对话等领域。它可以用于训练更符合人类偏好的视觉-语言模型,提高生成内容的质量和相关性,并减少幻觉现象。此外,该方法还可以应用于个性化推荐系统,根据用户的多模态偏好推荐更符合其需求的内容。
📄 摘要(原文)
Direct Preference Optimization (DPO) has recently been extended from text-only models to vision-language models. However, existing methods rely on oversimplified pairwise comparisons, generating a single negative image via basic perturbations or similarity-based retrieval, which fail to capture the complex nature of multimodal preferences, inducing optimization bias and hallucinations. To address this issue, we propose MISP-DPO, the first framework to incorporate multiple, semantically diverse negative images in multimodal DPO via the Plackett-Luce model. Our method embeds prompts and candidate images in CLIP (Contrastive Language-Image Pretraining) space and applies a sparse autoencoder to uncover semantic deviations into interpretable factors. Negative samples are selected based on reconstruction difficulty, semantic deviation from the positive, and mutual diversity, yielding broader and more informative supervision. To handle multi-negative comparisons, we adopt a Plackett-Luce objective and introduce an importance sampling strategy that improves training efficiency. Experiments across five diverse benchmarks demonstrate that MISP-DPO consistently improves multimodal alignment over prior methods, validating the effectiveness of semantic-aware, multi-negative sampling in preference-based learning.