DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions

📄 arXiv: 2604.05623v1 📥 PDF

作者: Xinran Wang, Yuxuan Zhang, Xiao Zhang, Haolong Yan, Muxi Diao, Songyu Xu, Zhonghao Yan, Hongbing Li, Kongming Liang, Zhanyu Ma

分类: cs.CV, cs.CL, cs.MM

发布日期: 2026-04-07

备注: 8 pages, 5 figures. The dataset and code are available at https://zyx-hhnkh.github.io/DetailVerifyBench/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出DetailVerifyBench,用于长图像描述中细粒度幻觉定位的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述 幻觉定位 多模态学习 基准测试 长文本生成

📋 核心要点

  1. 现有图像描述评估基准缺乏细粒度和领域多样性,难以评估模型在长文本中定位幻觉的能力。
  2. 提出DetailVerifyBench,包含五个领域共1000张图像,平均描述长度超过200词,并提供token级别的幻觉标注。
  3. DetailVerifyBench是目前长图像描述领域中,用于精确幻觉定位的最具挑战性的基准测试。

📝 摘要(中文)

为了确保图像描述的高可靠性,准确检测和定位幻觉至关重要。在多模态大型语言模型(MLLM)时代,图像描述已从简短的句子演变为全面的叙述,通常跨越数百个单词。这种转变呈指数级地增加了挑战:模型现在必须在广泛的上下文中精确定位特定的错误跨度或单词,而不仅仅是标记响应级别的矛盾。然而,现有的基准测试缺乏评估这种能力所需的细粒度和领域多样性。为了弥合这一差距,我们推出了DetailVerifyBench,这是一个严格的基准测试,包含来自五个不同领域的1,000张高质量图像。凭借平均超过200个单词的描述长度以及对多种幻觉类型的密集token级别注释,它是迄今为止长图像描述领域中最具挑战性的精确幻觉定位基准。

🔬 方法详解

问题定义:论文旨在解决长图像描述中幻觉定位的问题。现有的图像描述模型在生成长文本描述时,容易出现与图像内容不符的“幻觉”现象。现有方法通常只能在句子级别或响应级别检测幻觉,无法精确定位到具体的错误token,这限制了对模型幻觉问题的深入分析和改进。

核心思路:论文的核心思路是构建一个高质量、细粒度的基准数据集,用于评估模型在长图像描述中定位幻觉的能力。通过提供token级别的幻觉标注,可以更准确地评估模型在复杂场景下识别和定位幻觉的能力,从而推动相关技术的发展。

技术框架:DetailVerifyBench基准测试包含以下几个关键组成部分:1) 高质量图像数据集:包含来自五个不同领域的1000张图像,涵盖了各种场景和对象。2) 长图像描述:每张图像都配有平均长度超过200个单词的详细描述,模拟了MLLM生成的长文本描述。3) Token级别幻觉标注:对描述中的每个token进行标注,标记其是否为幻觉,以及幻觉的类型。4) 评估指标:提供了一系列评估指标,用于衡量模型在幻觉定位方面的性能,例如精确率、召回率和F1值。

关键创新:该论文的关键创新在于构建了一个大规模、细粒度的长图像描述幻觉定位基准数据集。与现有基准相比,DetailVerifyBench具有以下优势:1) 更长的描述长度:更接近MLLM生成的实际场景。2) Token级别的标注:提供更精确的幻觉定位信息。3) 领域多样性:涵盖多个领域,更全面地评估模型的泛化能力。

关键设计:DetailVerifyBench的关键设计包括:1) 数据收集和标注:采用人工标注的方式,确保标注的准确性和一致性。2) 幻觉类型定义:定义了多种幻觉类型,例如对象幻觉、属性幻觉和关系幻觉,以便更全面地分析模型的幻觉问题。3) 评估指标选择:选择了精确率、召回率和F1值等常用指标,并针对长文本特点进行了调整,以更准确地评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DetailVerifyBench是目前长图像描述领域中最具挑战性的幻觉定位基准。它包含1000张图像,平均描述长度超过200个单词,并提供token级别的幻觉标注。该基准的发布将促进长图像描述幻觉定位技术的发展,并为评估和改进多模态大型语言模型提供有力工具。

🎯 应用场景

该研究成果可应用于提升多模态大型语言模型(MLLM)生成图像描述的可靠性。通过使用DetailVerifyBench评估和改进模型,可以减少幻觉的产生,提高生成描述的准确性和可信度。这对于需要高质量图像描述的应用场景,如自动驾驶、医疗诊断和智能客服等,具有重要意义。

📄 摘要(原文)

Accurately detecting and localizing hallucinations is a critical task for ensuring high reliability of image captions. In the era of Multimodal Large Language Models (MLLMs), captions have evolved from brief sentences into comprehensive narratives, often spanning hundreds of words. This shift exponentially increases the challenge: models must now pinpoint specific erroneous spans or words within extensive contexts, rather than merely flag response-level inconsistencies. However, existing benchmarks lack the fine granularity and domain diversity required to evaluate this capability. To bridge this gap, we introduce DetailVerifyBench, a rigorous benchmark comprising 1,000 high-quality images across five distinct domains. With an average caption length of over 200 words and dense, token-level annotations of multiple hallucination types, it stands as the most challenging benchmark for precise hallucination localization in the field of long image captioning to date. Our benchmark is available at https://zyx-hhnkh.github.io/DetailVerifyBench/.