HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning
作者: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
分类: cs.CV
发布日期: 2026-03-16
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
HalDec-Bench:用于图像描述幻觉检测的综合基准测试平台
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像描述 幻觉检测 视觉-语言模型 基准测试 多模态学习
📋 核心要点
- 现有图像描述幻觉检测缺乏统一基准,难以评估不同模型和幻觉类型的泛化能力。
- HalDec-Bench通过提供多样化的VLM生成描述、人工标注和细粒度标签,实现对幻觉检测器的全面评估。
- 实验表明,现有检测器对起始句存在偏见,且利用强VLM过滤可显著降低数据集噪声。
📝 摘要(中文)
图像描述中的幻觉检测(HalDec)评估视觉-语言模型将图像内容与文本正确对齐的能力,通过识别描述中错误地表示图像的内容。除了评估之外,有效的幻觉检测对于管理用于训练VLM的高质量图像-描述对也至关重要。然而,由于缺乏全面的基准,VLM作为幻觉检测器在不同描述模型和幻觉类型中的泛化能力仍不清楚。本文介绍了HalDec-Bench,一个旨在以原则性和可解释的方式评估幻觉检测器的基准。HalDec-Bench包含由各种VLM生成的描述,以及指示幻觉存在的人工标注、详细的幻觉类型类别和片段级别的标签。该基准提供了各种难度级别的任务,并揭示了在现有的多模态推理或对齐基准中不可见的模型之间的性能差异。我们的分析进一步揭示了两个关键发现。首先,检测器倾向于将出现在响应开头的句子识别为正确的,而不管它们的实际正确性如何。其次,我们的实验表明,通过使用强大的VLM作为过滤器,同时使用最新的VLM作为描述生成器,可以大大减少数据集噪声。
🔬 方法详解
问题定义:论文旨在解决图像描述任务中幻觉检测的评估问题。现有方法缺乏一个全面的基准测试平台,无法有效评估不同视觉-语言模型(VLM)作为幻觉检测器时的性能,尤其是在面对不同类型的幻觉和由不同模型生成的描述时。这阻碍了对幻觉检测能力的深入理解和改进。
核心思路:论文的核心思路是构建一个高质量、多样化的基准测试平台HalDec-Bench,该平台包含由不同VLM生成的图像描述,并提供人工标注的幻觉信息,包括幻觉类型和片段级别的标签。通过在该基准上评估不同的幻觉检测器,可以更全面地了解它们的性能,并发现潜在的局限性。
技术框架:HalDec-Bench的构建流程主要包括以下几个阶段: 1. 数据收集:收集由多种VLM生成的图像描述,确保描述的多样性。 2. 人工标注:对收集到的描述进行人工标注,标注是否存在幻觉,并对幻觉进行分类(例如,对象幻觉、属性幻觉等)。同时,对描述中的每个片段进行标注,指示该片段是否包含幻觉。 3. 基准测试任务设计:设计不同难度级别的幻觉检测任务,例如,句子级别的幻觉检测、片段级别的幻觉检测等。 4. 评估指标选择:选择合适的评估指标来衡量幻觉检测器的性能,例如,准确率、召回率、F1值等。
关键创新:HalDec-Bench的关键创新在于其全面性和细粒度。它不仅提供了大量的图像描述和人工标注,还对幻觉进行了细致的分类,并提供了片段级别的标注。这使得研究人员可以更深入地分析幻觉检测器的性能,并发现潜在的改进方向。此外,该基准还包含了由不同VLM生成的描述,这有助于评估幻觉检测器在面对不同类型的描述时的泛化能力。
关键设计:HalDec-Bench的关键设计包括: 1. 多样化的VLM选择:选择具有代表性的VLM作为描述生成器,以确保描述的多样性。 2. 细致的幻觉类型划分:对幻觉进行细致的分类,例如,对象幻觉、属性幻觉、关系幻觉等,以便更深入地分析幻觉的成因。 3. 片段级别的标注:对描述中的每个片段进行标注,指示该片段是否包含幻觉,以便更精确地评估幻觉检测器的性能。
🖼️ 关键图片
📊 实验亮点
HalDec-Bench揭示了现有幻觉检测器对起始句存在偏见,倾向于将其识别为正确,即使实际并非如此。实验还表明,使用强大的VLM作为过滤器,同时使用最新的VLM作为描述生成器,可以显著降低数据集噪声,从而提高VLM的训练质量。该基准测试为未来的幻觉检测研究提供了有价值的资源。
🎯 应用场景
HalDec-Bench可用于训练和评估图像描述幻觉检测模型,提升视觉-语言模型的可靠性。高质量的幻觉检测器可用于过滤和清洗图像-文本数据集,提高VLM的训练质量。该基准测试还有助于开发更鲁棒、更值得信赖的多模态人工智能系统,例如智能客服、图像搜索引擎等。
📄 摘要(原文)
Hallucination detection in captions (HalDec) assesses a vision-language model's ability to correctly align image content with text by identifying errors in captions that misrepresent the image. Beyond evaluation, effective hallucination detection is also essential for curating high-quality image-caption pairs used to train VLMs. However, the generalizability of VLMs as hallucination detectors across different captioning models and hallucination types remains unclear due to the lack of a comprehensive benchmark. In this work, we introduce HalDec-Bench, a benchmark designed to evaluate hallucination detectors in a principled and interpretable manner. HalDec-Bench contains captions generated by diverse VLMs together with human annotations indicating the presence of hallucinations, detailed hallucination-type categories, and segment-level labels. The benchmark provides tasks with a wide range of difficulty levels and reveals performance differences across models that are not visible in existing multimodal reasoning or alignment benchmarks. Our analysis further uncovers two key findings. First, detectors tend to recognize sentences appearing at the beginning of a response as correct, regardless of their actual correctness. Second, our experiments suggest that dataset noise can be substantially reduced by using strong VLMs as filters while employing recent VLMs as caption generators. Our project page is available at https://dahlian00.github.io/HalDec-Bench-Page/.