CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs

📄 arXiv: 2501.16629v1 📥 PDF

作者: Jinlan Fu, Shenzhen Huangfu, Hao Fei, Xiaoyu Shen, Bryan Hooi, Xipeng Qiu, See-Kiong Ng

分类: cs.CL, cs.CV

发布日期: 2025-01-28

备注: Accepted by ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出CHiP:跨模态分层直接偏好优化,缓解多模态LLM幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 幻觉抑制 直接偏好优化 跨模态对齐

📋 核心要点

  1. 现有MLLM存在幻觉问题,传统DPO方法难以对齐跨模态表征,无法有效区分幻觉与真实描述。
  2. CHiP的核心在于引入视觉偏好优化模块和分层文本偏好优化模块,从而实现跨模态和多粒度的偏好学习。
  3. 实验结果表明,CHiP在多个基准测试中显著降低了MLLM的幻觉,并在Object HalBench数据集上取得了显著提升。

📝 摘要(中文)

多模态大型语言模型(MLLM)虽然能力强大,但仍然存在幻觉问题。最近的研究试图通过将直接偏好优化(DPO)应用于多模态场景,利用基于文本的响应的偏好对来缓解这个问题。然而,我们对表征分布的分析表明,多模态DPO难以对齐图像和文本表征,也难以区分幻觉描述和非幻觉描述。为了解决这些挑战,我们提出了一种跨模态分层直接偏好优化(CHiP)来解决这些限制。我们在DPO框架内引入了一个视觉偏好优化模块,使MLLM能够同时从文本和视觉偏好中学习。此外,我们提出了一个分层文本偏好优化模块,使模型能够在多个粒度级别(包括响应、段落和token级别)捕获偏好。我们通过定量和定性分析评估CHiP,多个基准测试的结果表明其在减少幻觉方面的有效性。在Object HalBench数据集上,CHiP在减少幻觉方面优于DPO,基于Muffin和LLaVA模型分别实现了52.7%和55.5%的相对提升。

🔬 方法详解

问题定义:多模态大型语言模型(MLLMs)在生成描述时容易产生幻觉,即生成与输入图像不符的内容。现有的基于文本偏好优化的方法,如DPO,在多模态场景下表现不佳,难以对齐图像和文本的表征,无法有效区分幻觉和非幻觉描述。这导致模型仍然会生成不准确或虚假的描述。

核心思路:CHiP的核心思路是同时利用视觉和文本的偏好信息,并以分层的方式学习文本偏好。通过引入视觉偏好优化模块,模型可以直接从图像中学习偏好,从而更好地对齐跨模态表征。分层文本偏好优化模块则允许模型在不同粒度级别(响应、段落、token)上学习文本偏好,从而更全面地理解文本信息。

技术框架:CHiP在DPO框架的基础上进行了扩展。它包含两个主要的优化模块:视觉偏好优化模块和分层文本偏好优化模块。视觉偏好优化模块利用图像信息来指导模型的学习,分层文本偏好优化模块则在多个粒度级别上优化文本生成。整个框架通过联合优化这两个模块,从而提高模型生成描述的准确性和真实性。

关键创新:CHiP的关键创新在于同时引入了视觉偏好优化和分层文本偏好优化。与传统的仅依赖文本偏好优化的方法相比,CHiP能够更好地利用图像信息,并更全面地理解文本信息。这种跨模态和多粒度的偏好学习方式是CHiP能够有效减少幻觉的关键。

关键设计:视觉偏好优化模块的具体实现方式未知,论文中可能使用了对比学习或其他的视觉表征学习方法。分层文本偏好优化模块可能使用了不同的损失函数或权重来区分不同粒度级别的偏好。具体的参数设置和网络结构细节需要在论文原文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CHiP在Object HalBench数据集上显著优于DPO,基于Muffin模型实现了52.7%的相对提升,基于LLaVA模型实现了55.5%的相对提升。这些结果表明,CHiP在减少多模态LLM幻觉方面具有显著的优势。同时,论文提供了数据集和代码,方便其他研究者进行复现和进一步研究。

🎯 应用场景

CHiP技术可应用于各种需要多模态信息融合的场景,例如图像描述生成、视觉问答、机器人导航等。通过减少多模态LLM的幻觉,可以提高这些应用的可信度和可靠性,从而在医疗诊断、自动驾驶等关键领域发挥更大的作用。未来,该技术有望进一步扩展到视频理解、3D场景理解等更复杂的任务中。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) still struggle with hallucinations despite their impressive capabilities. Recent studies have attempted to mitigate this by applying Direct Preference Optimization (DPO) to multimodal scenarios using preference pairs from text-based responses. However, our analysis of representation distributions reveals that multimodal DPO struggles to align image and text representations and to distinguish between hallucinated and non-hallucinated descriptions. To address these challenges, in this work, we propose a Cross-modal Hierarchical Direct Preference Optimization (CHiP) to address these limitations. We introduce a visual preference optimization module within the DPO framework, enabling MLLMs to learn from both textual and visual preferences simultaneously. Furthermore, we propose a hierarchical textual preference optimization module that allows the model to capture preferences at multiple granular levels, including response, segment, and token levels. We evaluate CHiP through both quantitative and qualitative analyses, with results across multiple benchmarks demonstrating its effectiveness in reducing hallucinations. On the Object HalBench dataset, CHiP outperforms DPO in hallucination reduction, achieving improvements of 52.7% and 55.5% relative points based on the base model Muffin and LLaVA models, respectively. We make all our datasets and code publicly available: https://github.com/LVUGAI/CHiP.