Modality-Fair Preference Optimization for Trustworthy MLLM Alignment

📄 arXiv: 2410.15334v2 📥 PDF

作者: Songtao Jiang, Yan Zhang, Ruizhe Chen, Tianxiang Hu, Yeying Jin, Qinglin He, Yang Feng, Jian Wu, Zuozhu Liu

分类: cs.CV

发布日期: 2024-10-20 (更新: 2025-06-06)


💡 一句话要点

提出模态公平偏好优化(MFPO)以提升多模态大语言模型(MLLM)的可靠性,缓解幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 模态对齐 幻觉问题 偏好优化 可靠性 图像奖励 迭代学习

📋 核心要点

  1. 现有MLLM由于视觉和文本编码器独立训练,存在模态不对齐问题,导致模型产生幻觉,降低了模型在实际应用中的可靠性。
  2. 论文提出模态公平偏好优化(MFPO),通过构建多模态偏好数据集、设计图像奖励损失函数和采用迭代对齐策略来解决模态不对齐问题。
  3. 实验结果表明,MFPO显著提高了MLLM的可靠性,使得7B模型能够达到与更大模型相当甚至超过的可靠性水平。

📝 摘要(中文)

多模态大语言模型(MLLM)在各种任务中取得了显著成功。然而,视觉和文本编码器的独立训练常常导致模态不对齐。这种不对齐可能导致模型生成输入图像中不存在的内容,即幻觉,严重损害了MLLM在实际应用中的可靠性。尽管优化文本偏好可以缓解这个问题,但我们的初步研究表明,MLLM的可靠性仍然不足。即使输入图像严重失真,这些模型也倾向于提供首选答案。视觉token注意力分析表明,模型主要关注周围环境,而不是问题中引用的关键对象。这些发现突出了模态之间的不对齐,即答案没有充分利用输入图像。受此启发,我们提出了模态公平偏好优化(MFPO),它包括三个部分:构建一个多模态偏好数据集,其中不喜欢的图像与原始图像仅在关键区域不同;一个图像奖励损失函数,鼓励模型生成与输入图像更好对齐的答案;以及一个由易到难的迭代对齐策略,以稳定联合模态训练。在三个可靠性基准上的大量实验表明,MFPO显著提高了MLLM的可靠性。特别是,它使7B模型能够达到与13B、34B和更大的模型相当甚至超过的可靠性水平。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)中由于视觉和文本模态不对齐而导致的幻觉问题。现有方法主要集中在优化文本偏好,但忽略了图像信息的重要性,导致模型在图像信息不足或失真时仍然产生不准确的答案。这种现象严重降低了MLLM在实际应用中的可靠性。

核心思路:论文的核心思路是通过模态公平偏好优化(MFPO)来增强模型对图像信息的利用,从而减少幻觉。MFPO的核心在于确保模型在进行偏好选择时,能够公平地考虑视觉和文本模态的信息,避免过度依赖文本信息而忽略图像内容。通过构建特定的数据集和设计相应的损失函数,引导模型学习更加准确和可靠的多模态表示。

技术框架:MFPO包含三个主要组成部分:1) 多模态偏好数据集构建:构建一个包含原始图像、修改图像和对应答案的数据集,其中修改图像仅在关键区域与原始图像不同,用于训练模型区分细微的视觉差异。2) 图像奖励损失函数:设计一个损失函数,鼓励模型生成与输入图像更好对齐的答案。该损失函数基于图像信息,对生成与图像内容更相关的答案进行奖励,对生成与图像内容不符的答案进行惩罚。3) 由易到难的迭代对齐策略:采用一种迭代训练策略,从简单的对齐任务开始,逐步增加难度,以稳定联合模态训练过程。

关键创新:论文的关键创新在于提出了模态公平偏好优化的概念,并将其具体化为MFPO框架。与现有方法相比,MFPO更加强调图像信息的重要性,通过构建特定的数据集和设计相应的损失函数,引导模型学习更加准确和可靠的多模态表示。此外,由易到难的迭代对齐策略也有助于稳定训练过程,提高模型的泛化能力。

关键设计:在多模态偏好数据集构建方面,论文采用了一种巧妙的方法来生成修改图像,即仅在关键区域进行修改,从而使得模型能够更加关注图像中的重要细节。在图像奖励损失函数方面,具体实现方式未知,但其核心思想是基于图像信息对生成答案进行奖励或惩罚。在迭代对齐策略方面,具体实现细节未知,但其核心思想是从简单的对齐任务开始,逐步增加难度,以稳定训练过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MFPO显著提高了MLLM的可靠性。在三个可靠性基准测试中,MFPO使得7B模型能够达到与13B、34B和更大的模型相当甚至超过的可靠性水平。这表明MFPO能够有效地缓解MLLM中的幻觉问题,并提高模型的整体性能。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于各种需要高可靠性的多模态大语言模型应用场景,例如医疗诊断、自动驾驶、智能客服等。通过提高MLLM的可靠性,可以减少模型产生错误或误导性信息的风险,从而提高用户信任度和应用价值。未来,该研究可以进一步扩展到其他多模态任务和模型架构。

📄 摘要(原文)

Multimodal large language models (MLLMs) have achieved remarkable success across various tasks. However, separate training of visual and textual encoders often results in a misalignment of the modality. Such misalignment may lead models to generate content that is absent from the input image, a phenomenon referred to as hallucination. These inaccuracies severely undermine the trustworthiness of MLLMs in real-world applications. Despite attempts to optimize text preferences to mitigate this issue, our initial investigation indicates that the trustworthiness of MLLMs remains inadequate. Specifically, these models tend to provide preferred answers even when the input image is heavily distorted. Analysis of visual token attention also indicates that the model focuses primarily on the surrounding context rather than the key object referenced in the question. These findings highlight a misalignment between the modalities, where answers inadequately leverage input images. Motivated by our findings, we propose Modality-Fair Preference Optimization (MFPO), which comprises three components: the construction of a multimodal preference dataset in which dispreferred images differ from originals solely in key regions; an image reward loss function encouraging the model to generate answers better aligned with the input images; and an easy-to-hard iterative alignment strategy to stabilize joint modality training. Extensive experiments on three trustworthiness benchmarks demonstrate that MFPO significantly enhances the trustworthiness of MLLMs. In particular, it enables the 7B models to attain trustworthiness levels on par with, or even surpass, those of the 13B, 34B, and larger models.