ALOHa: A New Measure for Hallucination in Captioning Models

作者: Suzanne Petryk, David M. Chan, Anish Kachinthaya, Haodi Zou, John Canny, Joseph E. Gonzalez, Trevor Darrell

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2024-04-03

备注: To appear at NAACL 2024

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出ALOHa以解决视觉描述模型中的幻觉问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 多模态学习 视觉描述 大型语言模型 开放词汇度量

📋 核心要点

现有的幻觉度量标准CHAIR仅限于固定的对象集合，无法适应多样化的场景描述，导致评估不准确。
本文提出的ALOHa利用大型语言模型提取可归属物体，并通过语义相似度和匈牙利匹配来计算幻觉评分。
实验结果表明，ALOHa在HAT和nocaps数据集上分别比CHAIR多识别13.6%和30.8%的幻觉物体，显示出显著的性能提升。

📝 摘要（中文）

尽管多模态预训练在视觉描述方面取得了显著进展，当前的最先进模型仍然会生成包含错误的描述，例如幻觉出场景中不存在的物体。现有的主要幻觉度量标准CHAIR仅限于固定的MS COCO对象及其同义词。本文提出了一种现代化的开放词汇度量标准ALOHa，利用大型语言模型（LLMs）来测量物体幻觉。具体而言，我们使用LLM从候选描述中提取可归属的物体，测量其与参考对象的语义相似度，并使用匈牙利匹配生成最终的幻觉评分。我们展示了ALOHa在HAT（MS COCO Captions的一个新金标准子集）上正确识别出比CHAIR多13.6%的幻觉物体，在nocaps上则多出30.8%。我们的代码可在https://davidmchan.github.io/aloha/获取。

🔬 方法详解

问题定义：本文旨在解决当前视觉描述模型在生成描述时出现的物体幻觉问题。现有的CHAIR度量标准由于其固定的对象集合，无法有效评估多样化场景中的幻觉现象，导致评估结果的局限性。

核心思路：ALOHa的核心思路是利用大型语言模型（LLMs）来提取候选描述中的可归属物体，并通过与参考对象的语义相似度进行比较，从而更准确地识别幻觉物体。这样的设计使得度量标准能够适应开放词汇的场景描述。

技术框架：ALOHa的整体架构包括三个主要模块：首先，使用LLM从候选描述中提取物体；其次，计算提取物体与参考对象之间的语义相似度；最后，应用匈牙利匹配算法生成最终的幻觉评分。

关键创新：ALOHa的主要创新在于其开放词汇的特性，能够识别超出MS COCO类别的物体，从而显著提高幻觉检测的准确性。这一创新使得ALOHa在多样化场景中表现优于CHAIR。

关键设计：在实现ALOHa时，关键设计包括选择合适的LLM进行物体提取、定义语义相似度的计算方法，以及使用匈牙利匹配算法来优化幻觉评分的生成过程。这些设计细节确保了度量的准确性和有效性。

🖼️ 关键图片

📊 实验亮点

在实验中，ALOHa在HAT数据集上比CHAIR多识别13.6%的幻觉物体，而在nocaps数据集上则多出30.8%。这一显著的性能提升表明ALOHa在处理开放词汇场景中的优势，展示了其在幻觉检测中的有效性。

🎯 应用场景

ALOHa的研究成果在多个领域具有潜在应用价值，特别是在自动图像描述、视频分析和人机交互等场景中。通过提高幻觉检测的准确性，ALOHa能够帮助开发更智能的视觉描述系统，提升用户体验和系统的可靠性。未来，ALOHa还可能推动多模态学习和自然语言处理领域的进一步研究与应用。

📄 摘要（原文）

Despite recent advances in multimodal pre-training for visual description, state-of-the-art models still produce captions containing errors, such as hallucinating objects not present in a scene. The existing prominent metric for object hallucination, CHAIR, is limited to a fixed set of MS COCO objects and synonyms. In this work, we propose a modernized open-vocabulary metric, ALOHa, which leverages large language models (LLMs) to measure object hallucinations. Specifically, we use an LLM to extract groundable objects from a candidate caption, measure their semantic similarity to reference objects from captions and object detections, and use Hungarian matching to produce a final hallucination score. We show that ALOHa correctly identifies 13.6% more hallucinated objects than CHAIR on HAT, a new gold-standard subset of MS COCO Captions annotated for hallucinations, and 30.8% more on nocaps, where objects extend beyond MS COCO categories. Our code is available at https://davidmchan.github.io/aloha/.

ALOHa: A New Measure for Hallucination in Captioning Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理