Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization

📄 arXiv: 2502.13146v3 📥 PDF

作者: Shuo Xing, Peiran Li, Yuping Wang, Ruizheng Bai, Yueqi Wang, Chan-Wei Hu, Chengxuan Qian, Huaxiu Yao, Zhengzhong Tu

分类: cs.CV, cs.LG

发布日期: 2025-02-18 (更新: 2025-09-19)

备注: Published at EMNLP 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出Re-Align框架,通过检索增强的直接偏好优化对齐视觉语言模型,有效缓解跨模态幻觉问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 跨模态对齐 直接偏好优化 图像检索 幻觉缓解

📋 核心要点

  1. 现有VLM易出现跨模态幻觉,传统DPO方法忽略了视觉信息在对齐中的作用,导致对齐效果不佳。
  2. Re-Align框架利用图像检索构建双重偏好数据集,同时考虑文本和视觉偏好信号,提升对齐效果。
  3. 实验表明,Re-Align能有效缓解幻觉,并在VQA任务中取得显著性能提升,同时保持鲁棒性和可扩展性。

📝 摘要(中文)

大型视觉语言模型(VLM)的出现通过整合视觉模态扩展了单模态大型语言模型(LLM)的范围和能力,从而在各种实际场景中解锁了变革性的跨模态应用。尽管VLMs表现出色,但它们容易出现显著的幻觉,特别是跨模态不一致的形式。基于人类反馈的强化学习(RLHF)在对齐LLM方面的成功,最近的进展集中于在精心策划的数据集上应用直接偏好优化(DPO)来缓解这些问题。然而,这些方法通常以蛮力方式引入偏好信号,忽略了视觉信息在对齐过程中的关键作用。在本文中,我们介绍Re-Align,一种新颖的对齐框架,它利用图像检索来构建双重偏好数据集,有效地结合了文本和视觉偏好信号。我们进一步引入rDPO,它是标准直接偏好优化的扩展,在微调期间结合了额外的视觉偏好目标。我们的实验结果表明,Re-Align不仅比以前的方法更有效地缓解了幻觉,而且在一般的视觉问答(VQA)任务中也产生了显著的性能提升。此外,我们表明Re-Align在各种VLM尺寸和架构中保持了鲁棒性和可扩展性。这项工作代表了在对齐多模态LLM方面的重要一步,为更可靠和有效的跨模态应用铺平了道路。我们发布了所有代码在https://github.com/taco-group/Re-Align。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在跨模态任务中容易产生幻觉,即生成与图像内容不一致的文本。现有的直接偏好优化(DPO)方法虽然在对齐语言模型方面取得了成功,但它们在应用于VLM时,通常忽略了视觉信息在对齐过程中的重要性,导致对齐效果不佳,无法有效缓解跨模态幻觉问题。

核心思路:Re-Align的核心思路是通过引入视觉信息来增强DPO的对齐过程。具体来说,它利用图像检索技术,为每个文本生成多个候选图像,并根据这些图像与文本的相关性构建一个双重偏好数据集。这个数据集包含了文本偏好和视觉偏好,从而使模型能够更好地学习跨模态的对齐关系。

技术框架:Re-Align框架主要包含两个阶段:数据构建阶段和模型微调阶段。在数据构建阶段,首先使用图像检索技术为每个文本生成多个候选图像。然后,人工或自动评估这些图像与文本的相关性,并根据评估结果构建一个双重偏好数据集。在模型微调阶段,使用rDPO(retrieval-augmented DPO)算法对VLM进行微调。rDPO在标准DPO的基础上增加了一个视觉偏好目标,从而使模型能够同时学习文本偏好和视觉偏好。

关键创新:Re-Align的关键创新在于它将图像检索技术与DPO相结合,从而有效地利用了视觉信息来增强VLM的对齐过程。与传统的DPO方法相比,Re-Align能够更好地缓解跨模态幻觉问题,并提高VLM在跨模态任务中的性能。

关键设计:Re-Align的关键设计包括:1) 使用高质量的图像检索模型来生成候选图像;2) 设计合理的评估指标来评估图像与文本的相关性;3) 使用rDPO算法,该算法在标准DPO的基础上增加了一个视觉偏好目标,具体实现方式未知,论文中可能未详细公开。损失函数的设计需要平衡文本偏好和视觉偏好,以达到最佳的对齐效果。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Re-Align在缓解跨模态幻觉方面优于现有方法,并在通用视觉问答(VQA)任务中取得了显著的性能提升。具体数据未知,但论文强调了Re-Align在不同VLM尺寸和架构上的鲁棒性和可扩展性。

🎯 应用场景

Re-Align框架可应用于各种需要可靠跨模态理解的场景,例如视觉问答、图像描述生成、机器人导航和人机交互等。通过减少VLM的幻觉,可以提高这些应用的可靠性和安全性,从而推动多模态人工智能技术在实际场景中的应用。

📄 摘要(原文)

The emergence of large Vision Language Models (VLMs) has broadened the scope and capabilities of single-modal Large Language Models (LLMs) by integrating visual modalities, thereby unlocking transformative cross-modal applications in a variety of real-world scenarios. Despite their impressive performance, VLMs are prone to significant hallucinations, particularly in the form of cross-modal inconsistencies. Building on the success of Reinforcement Learning from Human Feedback (RLHF) in aligning LLMs, recent advancements have focused on applying direct preference optimization (DPO) on carefully curated datasets to mitigate these issues. Yet, such approaches typically introduce preference signals in a brute-force manner, neglecting the crucial role of visual information in the alignment process. In this paper, we introduce Re-Align, a novel alignment framework that leverages image retrieval to construct a dual-preference dataset, effectively incorporating both textual and visual preference signals. We further introduce rDPO, an extension of the standard direct preference optimization that incorporates an additional visual preference objective during fine-tuning. Our experimental results demonstrate that Re-Align not only mitigates hallucinations more effectively than previous methods but also yields significant performance gains in general visual question-answering (VQA) tasks. Moreover, we show that Re-Align maintains robustness and scalability across a wide range of VLM sizes and architectures. This work represents a significant step forward in aligning multimodal LLMs, paving the way for more reliable and effective cross-modal applications. We release all the code in https://github.com/taco-group/Re-Align.