Mitigating Open-Vocabulary Caption Hallucinations

作者: Assaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar Averbuch-Elor

分类: cs.CV, cs.AI

发布日期: 2023-12-06 (更新: 2024-10-16)

备注: Website Link: https://assafbk.github.io/mocha/

DOI: 10.18653/v1/2024.findings-acl.657

🔗 代码/项目: GITHUB

💡 一句话要点

提出MOCHa框架，缓解开放词汇图像描述中的幻觉问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像描述 幻觉缓解 开放词汇 强化学习 多目标优化 视觉文本对齐 自然语言生成

📋 核心要点

图像描述模型易产生幻觉，即生成图像中不存在的细节，现有方法难以处理开放词汇场景下的长尾幻觉。
MOCHa框架利用强化学习，设计多目标奖励函数，在保真度和充分性之间取得平衡，无需强监督即可缓解幻觉。
提出的OpenCHAIR基准测试，能够更准确、更多样地评估开放词汇场景下的幻觉问题，并验证了MOCHa的有效性。

📝 摘要（中文）

近年来，图像条件文本生成取得了快速进展，但图像描述仍然存在幻觉这一根本问题，即生成无法从给定图像中推断出的虚假细节。现有方法主要使用封闭词汇对象列表来缓解或评估图像描述中的幻觉，忽略了实践中出现的长尾幻觉。为此，我们提出了一个框架，用于解决开放词汇图像描述中的幻觉问题。我们的框架包括一个新的基准测试OpenCHAIR，它利用生成式基础模型来评估图像描述的开放词汇对象幻觉，在多样性和准确性方面都超过了流行的且规模相似的CHAIR基准。此外，为了在不使用封闭对象列表的情况下缓解开放词汇幻觉，我们提出了一种利用强化学习进展的方法MOCHa。我们的多目标奖励函数明确针对生成中保真度和充分性之间的权衡，而无需任何强监督。MOCHa改进了各种图像描述模型，正如我们的OpenCHAIR基准和其他现有指标所捕获的那样。

🔬 方法详解

问题定义：图像描述任务中，模型会生成图像中不存在的物体或细节，即产生幻觉。现有方法主要依赖于封闭词汇表，无法有效处理开放词汇场景下长尾分布的幻觉问题，限制了模型的泛化能力和实际应用效果。

核心思路：MOCHa的核心思路是利用强化学习，通过设计一个多目标奖励函数，引导模型在生成描述时，既要保证与图像内容的保真度（fidelity），又要保证描述的充分性（adequacy），从而在两者之间取得平衡，减少幻觉的产生。这种方法不需要预先定义封闭的对象列表，能够更好地适应开放词汇场景。

技术框架：MOCHa框架主要包含以下几个部分：1）图像描述模型（作为强化学习的agent）；2）环境（包括图像和生成的描述）；3）奖励函数（用于评估生成描述的质量）；4）强化学习算法（用于优化图像描述模型）。整个流程是：给定一张图像，图像描述模型生成一段描述，然后奖励函数根据图像和描述计算一个奖励值，强化学习算法根据奖励值更新图像描述模型的参数，重复这个过程，直到模型能够生成高质量的描述。

关键创新：MOCHa的关键创新在于其多目标奖励函数的设计。该奖励函数综合考虑了生成描述的保真度和充分性，通过调整不同目标的权重，可以控制模型在两者之间的权衡。此外，MOCHa不需要使用封闭的对象列表，能够更好地处理开放词汇场景下的幻觉问题。

关键设计：MOCHa的多目标奖励函数包含多个子目标，例如：1）保真度目标：鼓励模型生成与图像内容相关的描述，可以使用CLIP模型计算图像和描述之间的相似度；2）充分性目标：鼓励模型生成包含足够细节的描述，可以使用语言模型评估描述的流畅度和信息量；3）幻觉惩罚项：惩罚模型生成图像中不存在的物体的描述，可以使用外部知识库或预训练模型进行验证。这些子目标的权重需要根据具体任务进行调整。

📊 实验亮点

实验结果表明，MOCHa框架在OpenCHAIR基准测试上显著优于现有的图像描述模型，在保真度和充分性之间取得了更好的平衡。此外，MOCHa在其他现有的图像描述指标上也取得了提升，证明了其泛化能力和有效性。

🎯 应用场景

该研究成果可应用于各种图像理解和文本生成任务，例如：智能相册、视觉问答、图像检索等。通过减少图像描述中的幻觉，可以提高用户体验和任务性能。未来，该方法可以进一步扩展到视频描述、3D场景描述等更复杂的场景。

📄 摘要（原文）

While recent years have seen rapid progress in image-conditioned text generation, image captioning still suffers from the fundamental issue of hallucinations, namely, the generation of spurious details that cannot be inferred from the given image. Existing methods largely use closed-vocabulary object lists to mitigate or evaluate hallucinations in image captioning, ignoring the long-tailed nature of hallucinations that occur in practice. To this end, we propose a framework for addressing hallucinations in image captioning in the open-vocabulary setting. Our framework includes a new benchmark, OpenCHAIR, that leverages generative foundation models to evaluate open-vocabulary object hallucinations for image captioning, surpassing the popular and similarly-sized CHAIR benchmark in both diversity and accuracy. Furthermore, to mitigate open-vocabulary hallucinations without using a closed object list, we propose MOCHa, an approach harnessing advancements in reinforcement learning. Our multi-objective reward function explicitly targets the trade-off between fidelity and adequacy in generations without requiring any strong supervision. MOCHa improves a large variety of image captioning models, as captured by our OpenCHAIR benchmark and other existing metrics. Code and models can be found at: https://github.com/assafbk/mocha_code

Mitigating Open-Vocabulary Caption Hallucinations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册