FINER: MLLMs Hallucinate under Fine-grained Negative Queries

📄 arXiv: 2603.17662v1 📥 PDF

作者: Rui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

分类: cs.CV, cs.AI

发布日期: 2026-03-18

备注: CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出FINER以解决多模态大语言模型的幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉问题 细粒度查询 直接偏好优化 模型微调 数据集构建 性能提升

📋 核心要点

  1. 现有的多模态大语言模型在细粒度查询时容易产生幻觉,且现有基准主要集中在粗略的图像相关问题上,未能充分反映这一挑战。
  2. 本文提出了细粒度负查询(FINER),并通过FINER-Tuning方法,利用直接偏好优化(DPO)对模型进行微调,以减少幻觉现象。
  3. 实验结果显示,使用FINER-Tuning微调的模型在幻觉现象上减少了最多24.2%,同时在多个基准上提升了多模态能力。

📝 摘要(中文)

多模态大语言模型(MLLMs)在处理细粒度查询时容易产生幻觉,这一挑战在现有基准中未得到充分体现。本文提出了细粒度负查询(FINER),以及两个基准:FINER-CompreCap和FINER-DOCCI。通过FINER,我们分析了在多对象、多属性、多关系和“什么”问题四种场景下的幻觉现象。研究表明,当细粒度的不匹配与图像中真实存在的元素同时出现时,MLLMs更容易产生幻觉。为了解决这一问题,本文提出了FINER-Tuning,利用直接偏好优化(DPO)对FINER启发的数据进行微调。对四个前沿MLLMs进行FINER-Tuning微调后,在我们的基准上幻觉现象减少了最多24.2%(InternVL3.5-14B),同时在八个现有幻觉评估套件上也有性能提升,并增强了在六个基准上的多模态能力。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型在细粒度查询中产生幻觉的问题。现有方法主要关注粗略的图像相关问题,导致细粒度查询的挑战未被充分评估。

核心思路:论文提出细粒度负查询(FINER),并通过FINER-Tuning方法,利用直接偏好优化(DPO)对模型进行微调,以减少幻觉现象。这样的设计旨在针对细粒度不匹配与真实元素共存的情况进行优化。

技术框架:整体架构包括数据集的构建、基准的设计以及模型的微调过程。FINER数据集涵盖多对象、多属性、多关系和“什么”问题四种场景,微调过程则基于这些数据进行。

关键创新:最重要的技术创新是提出了FINER数据集和FINER-Tuning方法,特别是利用DPO进行微调,这与现有方法在处理细粒度查询时的策略有本质区别。

关键设计:在微调过程中,采用了特定的损失函数和网络结构,以确保模型能够有效学习细粒度查询的特征,并减少幻觉现象。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用FINER-Tuning微调的模型在幻觉现象上减少了最多24.2%(InternVL3.5-14B),并在八个现有幻觉评估套件上同时提升了性能,展现了显著的多模态能力增强。

🎯 应用场景

该研究的潜在应用领域包括图像描述生成、智能问答系统和多模态交互等。通过减少幻觉现象,提升模型在细粒度查询中的表现,能够显著提高用户体验和系统的可靠性,未来可能推动多模态AI技术的广泛应用。

📄 摘要(原文)

Multimodal large language models (MLLMs) struggle with hallucinations, particularly with fine-grained queries, a challenge underrepresented by existing benchmarks that focus on coarse image-related questions. We introduce FIne-grained NEgative queRies (FINER), alongside two benchmarks: FINER-CompreCap and FINER-DOCCI. Using FINER, we analyze hallucinations across four settings: multi-object, multi-attribute, multi-relation, and ``what'' questions. Our benchmarks reveal that MLLMs hallucinate when fine-grained mismatches co-occur with genuinely present elements in the image. To address this, we propose FINER-Tuning, leveraging Direct Preference Optimization (DPO) on FINER-inspired data. Finetuning four frontier MLLMs with FINER-Tuning yields up to 24.2\% gains (InternVL3.5-14B) on hallucinations from our benchmarks, while simultaneously improving performance on eight existing hallucination suites, and enhancing general multimodal capabilities across six benchmarks. Code, benchmark, and models are available at \href{https://explainableml.github.io/finer-project/}{https://explainableml.github.io/finer-project/}.