Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

📄 arXiv: 2412.15484v4 📥 PDF

作者: Saehyung Lee, Seunghyun Yoon, Trung Bui, Jing Shi, Sungroh Yoon

分类: cs.CV

发布日期: 2024-12-20 (更新: 2025-07-07)

备注: ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出CapMAS:一种多智能体协作框架与双重评估指标,提升超细节图像描述的真实性和覆盖率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述 多模态学习 大型语言模型 幻觉检测 多智能体系统 事实性评估 覆盖率评估

📋 核心要点

  1. 现有MLLM在生成超细节图像描述时易产生幻觉,且现有幻觉检测方法难以有效评估这些细节描述的真实性。
  2. 论文提出一种多智能体协作框架CapMAS,利用LLM和MLLM协同工作,纠正和完善图像描述,提升真实性。
  3. 论文构建了新的评估框架和基准数据集,实验证明CapMAS能显著提升描述的真实性,优于现有方法,并超越GPT-4V。

📝 摘要(中文)

多模态大型语言模型(MLLM)擅长生成高度详细的图像描述,但经常产生幻觉。我们的分析表明,现有的幻觉检测方法难以处理详细的描述。我们认为这是由于MLLM越来越依赖于其生成的文本,而不是输入图像,尤其是在序列长度增加时。为了解决这个问题,我们提出了一种多智能体方法,利用LLM-MLLM协作来纠正给定的描述。此外,我们引入了一个评估框架和一个基准数据集,以促进对详细描述的系统分析。实验表明,我们提出的评估方法比现有的指标更能与人类对真实性的判断相符,并且现有的提高MLLM真实性的方法可能在超细节图像描述任务中效果不佳。相比之下,我们提出的方法显著提高了描述的事实准确性,甚至改进了GPT-4V生成的描述。最后,我们强调了以VQA为中心的基准测试的局限性,证明了MLLM在VQA基准测试中的性能可能与其生成详细图像描述的能力无关。我们的代码和数据可在https://github.com/adobe-research/CapMAS获得。

🔬 方法详解

问题定义:现有的多模态大型语言模型在生成超细节图像描述时,容易产生幻觉,即生成与图像内容不符的信息。现有的幻觉检测方法难以有效评估这些细节描述的真实性,因为它们通常无法区分真实细节和虚假细节。此外,MLLM在生成长序列描述时,更容易依赖自身生成的文本,而忽略原始图像信息,从而加剧了幻觉问题。

核心思路:论文的核心思路是利用多智能体协作,通过LLM和MLLM之间的相互验证和纠正,来提高图像描述的真实性。具体来说,LLM作为知识库和推理引擎,可以提供外部知识和逻辑推理能力,帮助MLLM识别和纠正幻觉。同时,MLLM可以利用其视觉感知能力,验证LLM提供的知识是否与图像内容一致。

技术框架:CapMAS框架包含两个主要智能体:描述生成智能体(MLLM)和描述修正智能体(LLM)。首先,MLLM生成初始的图像描述。然后,LLM接收该描述和原始图像,利用其知识库和推理能力,识别描述中可能存在的幻觉,并提出修正建议。最后,MLLM接收LLM的修正建议,并结合原始图像信息,生成最终的图像描述。此外,论文还提出了一个双重评估指标,用于评估描述的真实性和覆盖率。

关键创新:论文的关键创新在于提出了多智能体协作的图像描述生成框架,以及双重评估指标。多智能体协作框架能够有效利用LLM和MLLM的优势,提高描述的真实性。双重评估指标能够更全面地评估描述的质量,包括真实性和覆盖率。与现有方法相比,CapMAS能够更好地处理超细节图像描述,并有效减少幻觉的产生。

关键设计:在多智能体协作框架中,LLM和MLLM之间的交互方式至关重要。论文采用了一种基于提示工程的方法,设计了特定的提示语,引导LLM识别和纠正幻觉。例如,提示语可以包含“请仔细检查描述中是否存在与图像内容不符的信息”等指令。此外,论文还设计了一种损失函数,用于训练MLLM,使其能够更好地接受LLM的修正建议。双重评估指标包括事实准确性(Factuality)和覆盖率(Coverage),分别衡量描述的真实性和细节丰富程度。事实准确性通过将描述与图像内容进行对比来评估,覆盖率通过计算描述中包含的细节数量来评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CapMAS能够显著提高图像描述的真实性,优于现有的图像描述生成方法,甚至超越了GPT-4V。具体来说,CapMAS在事实准确性方面取得了显著提升,并且在覆盖率方面也保持了较高的水平。此外,实验还验证了论文提出的双重评估指标与人类判断的一致性,表明该指标能够更准确地评估图像描述的质量。

🎯 应用场景

该研究成果可应用于各种需要高质量图像描述的场景,例如:自动驾驶、智能监控、图像检索、视觉辅助等。通过提高图像描述的真实性和覆盖率,可以提升这些应用系统的性能和可靠性。此外,该研究提出的多智能体协作框架和双重评估指标,也可以为其他多模态任务提供借鉴。

📄 摘要(原文)

Multimodal large language models (MLLMs) excel at generating highly detailed captions but often produce hallucinations. Our analysis reveals that existing hallucination detection methods struggle with detailed captions. We attribute this to the increasing reliance of MLLMs on their generated text, rather than the input image, as the sequence length grows. To address this issue, we propose a multiagent approach that leverages LLM-MLLM collaboration to correct given captions. Additionally, we introduce an evaluation framework and a benchmark dataset to facilitate the systematic analysis of detailed captions. Our experiments demonstrate that our proposed evaluation method better aligns with human judgments of factuality than existing metrics and that existing approaches to improve the MLLM factuality may fall short in hyper-detailed image captioning tasks. In contrast, our proposed method significantly enhances the factual accuracy of captions, even improving those generated by GPT-4V. Finally, we highlight a limitation of VQA-centric benchmarking by demonstrating that an MLLM's performance on VQA benchmarks may not correlate with its ability to generate detailed image captions. Our code and data are available at https://github.com/adobe-research/CapMAS.