PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

📄 arXiv: 2510.19060 📥 PDF

作者: Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford, Julia Demarest, Adam Purvis, Keith Krut, Robert Stein, Rina Elster Pantalony, Mohit Bansal, Kathleen McKeown

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-02-28


💡 一句话要点

提出PoSh:利用场景图引导LLM评估图像描述,提升评估的细粒度和准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述评估 场景图 大型语言模型 视觉-语言模型 细粒度评估

📋 核心要点

  1. 现有图像描述评估指标难以捕捉长文本描述中细粒度的错误,尤其是在属性和关系理解方面。
  2. PoSh利用场景图作为结构化指导,引导LLM进行评估,从而实现对图像描述质量的细粒度评估。
  3. DOCENT数据集包含艺术作品和专家描述,结合人类评估,验证了PoSh的有效性,并揭示了现有模型在复杂场景理解上的不足。

📝 摘要(中文)

视觉-语言模型(VLM)在图像描述方面取得了显著进展,但评估仍然是一个挑战。传统的评估指标(如CIDEr、SPICE)是为短文本设计的,并且主要关注对象识别等现在已经不常见的错误。相比之下,长文本需要对属性和关系的依附关系更加敏感,并且需要能够将错误定位到特定的文本跨度。本文提出了PoSh,一种用于详细图像描述的评估指标,它使用场景图作为结构化的评估标准来引导LLM作为裁判,从而产生基于细粒度错误的聚合分数(例如,在组合理解方面的错误)。PoSh是可复制的、可解释的,并且比现有指标(包括GPT4o-as-a-Judge)更能代表人类评估者。为了验证PoSh,我们引入了一个具有挑战性的新数据集DOCENT。这个新基准包含艺术作品,以及专家编写的参考描述和模型生成的描述,并附有艺术史学生对描述质量的细粒度和粗粒度判断。因此,DOCENT能够在一个具有挑战性的新领域中评估详细的图像描述指标和详细的图像描述本身。我们表明,PoSh在DOCENT中与人类判断的相关性(Spearman ρ +0.05)高于最佳的开源替代方案,对图像类型具有鲁棒性(使用CapArena,一个现有的网络图像数据集),并且是一个有能力的奖励函数,优于标准的监督微调。然后,使用PoSh,我们描述了开放和封闭模型在描述DOCENT中的绘画、素描和雕塑方面的性能,并发现基础模型难以实现对具有丰富场景动态的图像的完整、无错误的覆盖,从而建立了一个要求苛刻的新任务来衡量VLM的进展。通过PoSh和DOCENT,我们希望能够促进辅助文本生成等重要领域的进展。

🔬 方法详解

问题定义:现有的图像描述评估指标,如CIDEr和SPICE,主要针对短文本设计,无法有效评估长文本描述中细粒度的错误,例如属性和关系的依附关系错误。这些指标对对象识别等常见错误的敏感性较高,但对更复杂的组合理解错误则不够敏感。因此,需要一种能够更准确、更细粒度地评估长文本图像描述质量的指标。

核心思路:PoSh的核心思路是利用场景图作为结构化的评估标准,引导大型语言模型(LLM)进行评估。场景图能够提供图像中对象及其关系的结构化表示,从而帮助LLM更好地理解图像内容。通过将场景图与生成的图像描述进行对比,可以识别描述中存在的错误,例如对象识别错误、属性错误和关系错误。这种方法能够提供更细粒度、更准确的评估结果。

技术框架:PoSh的整体框架包括以下几个主要模块:1) 场景图生成:使用现有的场景图生成模型从图像中提取场景图。2) LLM评估:使用LLM作为裁判,以场景图为指导,评估生成的图像描述。LLM被提示识别描述中与场景图不一致的地方。3) 错误定位和评分:根据LLM的评估结果,定位描述中的错误,并为每个错误分配一个分数。4) 聚合评分:将各个错误的评分聚合起来,得到最终的图像描述质量评分。

关键创新:PoSh最重要的技术创新点在于利用场景图作为结构化的评估标准来指导LLM进行评估。与传统的评估指标相比,PoSh能够提供更细粒度的评估结果,并且能够更好地捕捉描述中存在的组合理解错误。此外,PoSh还具有可解释性,因为它可以定位描述中的具体错误。

关键设计:PoSh的关键设计包括:1) 场景图的表示:使用三元组(主体,谓词,客体)来表示场景图中的关系。2) LLM的提示设计:设计合适的提示语,引导LLM识别描述中与场景图不一致的地方。3) 错误评分策略:设计合理的错误评分策略,根据错误的严重程度分配不同的分数。4) 聚合策略:选择合适的聚合策略,将各个错误的评分聚合起来,得到最终的图像描述质量评分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PoSh在DOCENT数据集上与人类判断的相关性(Spearman ρ +0.05)高于最佳的开源替代方案。此外,PoSh对图像类型具有鲁棒性,并且可以作为有效的奖励函数,优于标准的监督微调。这些结果表明,PoSh是一种有效的图像描述评估指标,能够提供更准确、更细粒度的评估结果。

🎯 应用场景

PoSh可应用于多种场景,例如辅助文本生成、图像搜索引擎优化和视觉障碍人士辅助技术。通过提供更准确的图像描述评估,PoSh可以帮助改进图像描述生成模型的性能,提高图像搜索的准确性,并为视觉障碍人士提供更详细的图像信息。

📄 摘要(原文)

While vision-language models (VLMs) have advanced into detailed image description, evaluation remains a challenge. Standard metrics (e.g. CIDEr, SPICE) were designed for short texts and tuned to recognize errors that are now uncommon, such as object misidentification. In contrast, long texts require sensitivity to attribute and relation attachments and scores that localize errors to particular text spans. In this work, we introduce PoSh, a metric for detailed image description that uses scene graphs as structured rubrics to guide LLMs-as-a-Judge, producing aggregate scores grounded in fine-grained errors (e.g. mistakes in compositional understanding). PoSh is replicable, interpretable and a better proxy for human raters than existing metrics (including GPT4o-as-a-Judge). To validate PoSh, we introduce a challenging new dataset, DOCENT. This novel benchmark contains artwork, paired with expert-written references, and model-generated descriptions, augmented with granular and coarse judgments of their quality from art history students. Thus, DOCENT enables evaluating both detailed image description metrics and detailed image description itself in a challenging new domain. We show that PoSh achieves stronger correlations (+0.05 Spearman $\rho$) with the human judgments in DOCENT than the best open-weight alternatives, is robust to image type (using CapArena, an existing dataset of web imagery) and is a capable reward function, outperforming standard supervised fine-tuning. Then, using PoSh, we characterize the performance of open and closed models in describing the paintings, sketches and statues in DOCENT and find that foundation models struggle to achieve full, error-free coverage of images with rich scene dynamics, establishing a demanding new task to gauge VLM progress. Through both PoSh and DOCENT, we hope to enable advances in important areas such as assistive text generation.