FINER: MLLMs Hallucinate under Fine-grained Negative Queries

作者: Rui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

分类: cs.CV, cs.AI

发布日期: 2026-03-18

备注: CVPR 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出FINER以解决多模态大语言模型的幻觉问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉问题 细粒度查询 直接偏好优化 模型微调 数据集构建 性能提升

📋 核心要点

现有的多模态大语言模型在细粒度查询时容易产生幻觉，且现有基准主要集中在粗略的图像相关问题上，未能充分反映这一挑战。
本文提出了细粒度负查询（FINER），并通过FINER-Tuning方法，利用直接偏好优化（DPO）对模型进行微调，以减少幻觉现象。
实验结果显示，使用FINER-Tuning微调的模型在幻觉现象上减少了最多24.2%，同时在多个基准上提升了多模态能力。

📝 摘要（中文）

多模态大语言模型（MLLMs）在处理细粒度查询时容易产生幻觉，这一挑战在现有基准中未得到充分体现。本文提出了细粒度负查询（FINER），以及两个基准：FINER-CompreCap和FINER-DOCCI。通过FINER，我们分析了在多对象、多属性、多关系和“什么”问题四种场景下的幻觉现象。研究表明，当细粒度的不匹配与图像中真实存在的元素同时出现时，MLLMs更容易产生幻觉。为了解决这一问题，本文提出了FINER-Tuning，利用直接偏好优化（DPO）对FINER启发的数据进行微调。对四个前沿MLLMs进行FINER-Tuning微调后，在我们的基准上幻觉现象减少了最多24.2%（InternVL3.5-14B），同时在八个现有幻觉评估套件上也有性能提升，并增强了在六个基准上的多模态能力。

🔬 方法详解

问题定义：本文旨在解决多模态大语言模型在细粒度查询中产生幻觉的问题。现有方法主要关注粗略的图像相关问题，导致细粒度查询的挑战未被充分评估。

核心思路：论文提出细粒度负查询（FINER），并通过FINER-Tuning方法，利用直接偏好优化（DPO）对模型进行微调，以减少幻觉现象。这样的设计旨在针对细粒度不匹配与真实元素共存的情况进行优化。

技术框架：整体架构包括数据集的构建、基准的设计以及模型的微调过程。FINER数据集涵盖多对象、多属性、多关系和“什么”问题四种场景，微调过程则基于这些数据进行。

关键创新：最重要的技术创新是提出了FINER数据集和FINER-Tuning方法，特别是利用DPO进行微调，这与现有方法在处理细粒度查询时的策略有本质区别。

关键设计：在微调过程中，采用了特定的损失函数和网络结构，以确保模型能够有效学习细粒度查询的特征，并减少幻觉现象。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用FINER-Tuning微调的模型在幻觉现象上减少了最多24.2%（InternVL3.5-14B），并在八个现有幻觉评估套件上同时提升了性能，展现了显著的多模态能力增强。

🎯 应用场景

该研究的潜在应用领域包括图像描述生成、智能问答系统和多模态交互等。通过减少幻觉现象，提升模型在细粒度查询中的表现，能够显著提高用户体验和系统的可靠性，未来可能推动多模态AI技术的广泛应用。

📄 摘要（原文）

Multimodal large language models (MLLMs) struggle with hallucinations, particularly with fine-grained queries, a challenge underrepresented by existing benchmarks that focus on coarse image-related questions. We introduce FIne-grained NEgative queRies (FINER), alongside two benchmarks: FINER-CompreCap and FINER-DOCCI. Using FINER, we analyze hallucinations across four settings: multi-object, multi-attribute, multi-relation, and ``what'' questions. Our benchmarks reveal that MLLMs hallucinate when fine-grained mismatches co-occur with genuinely present elements in the image. To address this, we propose FINER-Tuning, leveraging Direct Preference Optimization (DPO) on FINER-inspired data. Finetuning four frontier MLLMs with FINER-Tuning yields up to 24.2\% gains (InternVL3.5-14B) on hallucinations from our benchmarks, while simultaneously improving performance on eight existing hallucination suites, and enhancing general multimodal capabilities across six benchmarks. Code, benchmark, and models are available at \href{https://explainableml.github.io/finer-project/}{https://explainableml.github.io/finer-project/}.

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理