OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models

📄 arXiv: 2507.19262v1 📥 PDF

作者: Monika Wysoczańska, Shyamal Buch, Anurag Arnab, Cordelia Schmid

分类: cs.CV

发布日期: 2025-07-25


💡 一句话要点

提出OVFact,用于评估和提升长文本描述模型的开放词汇事实性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本描述 事实性评估 视觉 grounding 开放词汇 数据过滤

📋 核心要点

  1. 现有评估方法难以有效评估长文本描述的事实性,尤其是在缺乏人工标注的情况下。
  2. OV-Fact利用开放词汇视觉 grounding 和工具验证,无需人工标注即可评估长文本描述的事实性。
  3. 实验表明,使用OVFact过滤后的数据集训练的模型,在不降低描述性的前提下,显著提升了事实性精确率。

📝 摘要(中文)

大型视觉-语言模型(VLMs)在生成长而符合事实的描述时常常遇到困难。然而,传统的幻觉和事实性度量方法并不适用于评估更长、更多样化的描述,以及在缺乏人工标注的真实描述的情况下。我们提出了OV-Fact,一种新颖的评估长文本描述事实性的方法,它利用开放词汇视觉 grounding 和基于工具的验证,而无需依赖人工标注。我们的方法提高了与人类判断的一致性,并在同一指标中捕捉了描述的描述性(召回率)和事实准确性(精确率)。此外,与之前的指标不同,我们参考无关的方法设计使得基于事实性的数据过滤成为可能。我们观察到,在大型、嘈杂的(VLM生成的)预训练数据集的一个OVFact过滤后的(减少2.5-5倍)子集上训练的模型,在不牺牲跨一系列下游长文本描述基准的描述性的前提下,有意义地提高了事实性精确率。

🔬 方法详解

问题定义:论文旨在解决长文本描述生成模型的事实性问题。现有方法,如依赖人工标注或针对短文本设计的指标,无法有效评估长文本描述的事实性,尤其是在缺乏高质量人工标注的情况下。这些方法难以捕捉长文本中复杂的事实错误,并且泛化能力有限。

核心思路:论文的核心思路是利用开放词汇视觉 grounding 和工具验证,构建一个无需人工标注的、可扩展的事实性评估框架。通过将描述中的实体与图像内容进行匹配,并利用外部知识库(如搜索引擎)验证描述的真实性,从而实现对长文本描述事实性的自动评估。这种方法旨在提高评估的准确性和效率,并支持基于事实性的数据过滤。

技术框架:OV-Fact 的整体框架包含以下几个主要模块:1) 实体识别:从生成的描述中提取实体。2) 视觉 grounding:将提取的实体与图像中的对应区域进行匹配,判断实体是否存在于图像中。3) 工具验证:对于无法通过视觉 grounding 验证的实体或关系,利用外部知识库(如搜索引擎)进行验证。4) 事实性评分:综合视觉 grounding 和工具验证的结果,计算描述的事实性得分。

关键创新:OV-Fact 的关键创新在于其参考无关的设计,即不需要人工标注的参考描述。这使得该方法可以应用于大规模数据集,并支持基于事实性的数据过滤。此外,OV-Fact 结合了视觉 grounding 和工具验证,能够更全面地评估描述的事实性,并提高评估的准确性。

关键设计:在视觉 grounding 方面,论文可能采用了预训练的视觉-语言模型,如 CLIP,来计算文本实体和图像区域之间的相似度。在工具验证方面,论文可能使用了搜索引擎 API 来检索与实体相关的知识,并判断描述是否与检索到的知识一致。论文可能还设计了一种综合视觉 grounding 和工具验证结果的评分函数,以生成最终的事实性得分。具体的参数设置、损失函数和网络结构等技术细节未知,需要查阅论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OV-Fact 在多个长文本描述基准测试中取得了显著的性能提升。实验结果表明,使用 OVFact 过滤后的数据集训练的模型,在不牺牲描述性的前提下,显著提高了事实性精确率。具体的性能数据和对比基线未知,需要查阅论文全文。

🎯 应用场景

OV-Fact 可应用于多种场景,例如评估和改进图像描述生成模型、视频描述生成模型,以及其他需要生成长文本描述的多模态任务。该方法还可以用于数据过滤,筛选出高质量的训练数据,从而提升模型的性能和可靠性。此外,OV-Fact 有助于提高 AI 系统的透明度和可信度,促进负责任的 AI 发展。

📄 摘要(原文)

Large vision-language models (VLMs) often struggle to generate long and factual captions. However, traditional measures for hallucination and factuality are not well suited for evaluating longer, more diverse captions and in settings where ground-truth human-annotated captions are unavailable. We introduce OV-Fact, a novel method for measuring caption factuality of long captions that leverages open-vocabulary visual grounding and tool-based verification without depending on human annotations. Our method improves agreement with human judgments and captures both caption descriptiveness (recall) and factual precision in the same metric. Furthermore, unlike previous metrics, our reference-free method design enables new applications towards factuality-based data filtering. We observe models trained on an OVFact-filtered (2.5-5x less) subset of a large-scale, noisy (VLM-generated) pretraining set meaningfully improve factuality precision without sacrificing caption descriptiveness across a range of downstream long caption benchmarks.