CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

📄 arXiv: 2502.14914v4 📥 PDF

作者: Zhihang Liu, Chen-Wei Xie, Bin Wen, Feiwu Yu, Jixuan Chen, Pandeng Li, Boqiang Zhang, Nianzu Yang, Yinglu Li, Zuan Gao, Yun Zheng, Hongtao Xie

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-02-19 (更新: 2025-11-26)

备注: Accepted to NeurIPS 2025


💡 一句话要点

提出CAPability:一个综合视觉描述基准,用于评估正确性和彻底性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉描述 多模态学习 大型语言模型 评估基准 视觉元素 正确性 彻底性

📋 核心要点

  1. 现有视觉描述基准难以有效评估多模态大语言模型生成的详细描述,缺乏对视觉元素覆盖的全面性。
  2. CAPability通过构建多视角基准,并引入精确率和命中率等指标,全面评估视觉描述的正确性和彻底性。
  3. 实验结果表明,MLLM在QA和描述能力之间存在显著差距,为未来研究提供了改进方向。

📝 摘要(中文)

随着现代多模态大型语言模型(MLLM)的出现,视觉描述基准已经过时,因为简短的真实标签语句和传统指标无法有效地评估详细的描述。虽然最近的基准试图通过关注关键词提取或以对象为中心的评估来解决这个问题,但它们仍然局限于模糊视角或对象视角的分析以及不完整的视觉元素覆盖。本文介绍CAPability,一个综合的多视角基准,用于评估跨越六个关键视角的12个维度的视觉描述。我们整理了近11K张人工标注的图像和视频,并带有视觉元素注释,以评估生成的描述。CAPability使用精确率(precision)和命中率(hit)指标稳定地评估描述的正确性和彻底性。通过将注释转换为QA对,我们进一步引入了一种启发式指标,即“知道但无法表达”($K\bar{T}$),表明QA和描述能力之间存在显著的性能差距。我们的工作对MLLM的描述能力进行了全面的分析,因为我们识别了它们在各个维度上的优势和劣势,从而指导未来的研究以增强其能力的特定方面。

🔬 方法详解

问题定义:现有的视觉描述基准,特别是针对多模态大型语言模型(MLLMs)的基准,存在以下痛点:1) 标注信息过于简短,无法充分评估MLLMs生成详细描述的能力;2) 评估指标不够全面,无法同时衡量描述的正确性和彻底性;3) 视角单一,通常只关注对象或模糊的场景,忽略了对视觉元素更细致的覆盖。

核心思路:CAPability的核心思路是构建一个多视角的、包含丰富视觉元素标注的基准数据集,并设计相应的评估指标,从而更全面、准确地评估MLLMs的视觉描述能力。通过人工标注图像和视频,并将其转换为QA对,可以更深入地了解模型在理解和表达视觉信息方面的能力。

技术框架:CAPability基准的构建主要包含以下几个阶段:1) 数据收集与标注:收集包含丰富视觉信息的图像和视频,并进行人工标注,标注内容包括视觉元素、对象、属性等;2) 维度划分:将视觉描述能力划分为六个关键视角下的12个维度,例如对象识别、关系理解、场景描述等;3) 指标设计:设计精确率(precision)和命中率(hit)等指标,用于评估描述的正确性和彻底性;引入“知道但无法表达”($K\bar{T}$)指标,用于衡量模型在QA和描述能力之间的差距;4) 评估与分析:使用CAPability基准评估现有的MLLMs,并分析其在不同维度上的表现,从而发现其优势和劣势。

关键创新:CAPability的主要创新点在于:1) 提出了一个多视角的视觉描述基准,覆盖了更全面的视觉元素;2) 设计了精确率和命中率等指标,可以同时评估描述的正确性和彻底性;3) 引入了“知道但无法表达”指标,揭示了MLLMs在QA和描述能力之间的差距。与现有方法相比,CAPability能够更全面、准确地评估MLLMs的视觉描述能力。

关键设计:CAPability的关键设计包括:1) 数据集的构建:收集了近11K张人工标注的图像和视频,并带有视觉元素注释;2) 维度的划分:将视觉描述能力划分为六个关键视角下的12个维度,保证了评估的全面性;3) 指标的设计:精确率和命中率的计算方式需要根据具体的维度和标注信息进行调整;“知道但无法表达”指标的计算需要将标注信息转换为QA对,并比较模型在QA和描述任务上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAPability基准的实验结果表明,现有的MLLM在视觉描述方面仍存在不足,尤其是在细粒度视觉元素理解和表达方面。通过$K\bar{T}$指标发现,模型在QA任务上的表现优于描述任务,表明模型具备一定的知识储备,但缺乏有效的表达能力。该基准为后续研究提供了明确的改进方向,例如增强模型对视觉元素的理解能力,提高描述的流畅性和准确性。

🎯 应用场景

CAPability基准的潜在应用领域包括:1) 评估和提升多模态大语言模型的视觉描述能力;2) 指导视觉描述算法的设计和优化;3) 应用于智能客服、图像搜索、视频理解等领域,提高人机交互的自然性和准确性。该研究的实际价值在于提供了一个更全面、准确的评估工具,促进视觉描述技术的发展。未来,CAPability可以扩展到更多模态和领域,例如语音描述、3D场景描述等。

📄 摘要(原文)

Visual captioning benchmarks have become outdated with the emergence of modern multimodal large language models (MLLMs), as the brief ground-truth sentences and traditional metrics fail to assess detailed captions effectively. While recent benchmarks attempt to address this by focusing on keyword extraction or object-centric evaluation, they remain limited to vague-view or object-view analyses and incomplete visual element coverage. In this paper, we introduce CAPability, a comprehensive multi-view benchmark for evaluating visual captioning across 12 dimensions spanning six critical views. We curate nearly 11K human-annotated images and videos with visual element annotations to evaluate the generated captions. CAPability stably assesses both the correctness and thoroughness of captions with \textit{precision} and \textit{hit} metrics. By converting annotations to QA pairs, we further introduce a heuristic metric, \textit{know but cannot tell} ($K\bar{T}$), indicating a significant performance gap between QA and caption capabilities. Our work provides a holistic analysis of MLLMs' captioning abilities, as we identify their strengths and weaknesses across various dimensions, guiding future research to enhance specific aspects of their capabilities.