ALOHa: A New Measure for Hallucination in Captioning Models
作者: Suzanne Petryk, David M. Chan, Anish Kachinthaya, Haodi Zou, John Canny, Joseph E. Gonzalez, Trevor Darrell
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2024-04-03
备注: To appear at NAACL 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出ALOHa以解决视觉描述模型中的幻觉问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 幻觉检测 多模态学习 视觉描述 大型语言模型 开放词汇度量
📋 核心要点
- 现有的幻觉度量标准CHAIR仅限于固定的对象集合,无法适应多样化的场景描述,导致评估不准确。
- 本文提出的ALOHa利用大型语言模型提取可归属物体,并通过语义相似度和匈牙利匹配来计算幻觉评分。
- 实验结果表明,ALOHa在HAT和nocaps数据集上分别比CHAIR多识别13.6%和30.8%的幻觉物体,显示出显著的性能提升。
📝 摘要(中文)
尽管多模态预训练在视觉描述方面取得了显著进展,当前的最先进模型仍然会生成包含错误的描述,例如幻觉出场景中不存在的物体。现有的主要幻觉度量标准CHAIR仅限于固定的MS COCO对象及其同义词。本文提出了一种现代化的开放词汇度量标准ALOHa,利用大型语言模型(LLMs)来测量物体幻觉。具体而言,我们使用LLM从候选描述中提取可归属的物体,测量其与参考对象的语义相似度,并使用匈牙利匹配生成最终的幻觉评分。我们展示了ALOHa在HAT(MS COCO Captions的一个新金标准子集)上正确识别出比CHAIR多13.6%的幻觉物体,在nocaps上则多出30.8%。我们的代码可在https://davidmchan.github.io/aloha/获取。
🔬 方法详解
问题定义:本文旨在解决当前视觉描述模型在生成描述时出现的物体幻觉问题。现有的CHAIR度量标准由于其固定的对象集合,无法有效评估多样化场景中的幻觉现象,导致评估结果的局限性。
核心思路:ALOHa的核心思路是利用大型语言模型(LLMs)来提取候选描述中的可归属物体,并通过与参考对象的语义相似度进行比较,从而更准确地识别幻觉物体。这样的设计使得度量标准能够适应开放词汇的场景描述。
技术框架:ALOHa的整体架构包括三个主要模块:首先,使用LLM从候选描述中提取物体;其次,计算提取物体与参考对象之间的语义相似度;最后,应用匈牙利匹配算法生成最终的幻觉评分。
关键创新:ALOHa的主要创新在于其开放词汇的特性,能够识别超出MS COCO类别的物体,从而显著提高幻觉检测的准确性。这一创新使得ALOHa在多样化场景中表现优于CHAIR。
关键设计:在实现ALOHa时,关键设计包括选择合适的LLM进行物体提取、定义语义相似度的计算方法,以及使用匈牙利匹配算法来优化幻觉评分的生成过程。这些设计细节确保了度量的准确性和有效性。
🖼️ 关键图片
📊 实验亮点
在实验中,ALOHa在HAT数据集上比CHAIR多识别13.6%的幻觉物体,而在nocaps数据集上则多出30.8%。这一显著的性能提升表明ALOHa在处理开放词汇场景中的优势,展示了其在幻觉检测中的有效性。
🎯 应用场景
ALOHa的研究成果在多个领域具有潜在应用价值,特别是在自动图像描述、视频分析和人机交互等场景中。通过提高幻觉检测的准确性,ALOHa能够帮助开发更智能的视觉描述系统,提升用户体验和系统的可靠性。未来,ALOHa还可能推动多模态学习和自然语言处理领域的进一步研究与应用。
📄 摘要(原文)
Despite recent advances in multimodal pre-training for visual description, state-of-the-art models still produce captions containing errors, such as hallucinating objects not present in a scene. The existing prominent metric for object hallucination, CHAIR, is limited to a fixed set of MS COCO objects and synonyms. In this work, we propose a modernized open-vocabulary metric, ALOHa, which leverages large language models (LLMs) to measure object hallucinations. Specifically, we use an LLM to extract groundable objects from a candidate caption, measure their semantic similarity to reference objects from captions and object detections, and use Hungarian matching to produce a final hallucination score. We show that ALOHa correctly identifies 13.6% more hallucinated objects than CHAIR on HAT, a new gold-standard subset of MS COCO Captions annotated for hallucinations, and 30.8% more on nocaps, where objects extend beyond MS COCO categories. Our code is available at https://davidmchan.github.io/aloha/.