VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions

📄 arXiv: 2509.25818v1 📥 PDF

作者: Kazuki Matsuda, Yuiga Wada, Shinnosuke Hirano, Seitaro Otsuki, Komei Sugiura

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-09-30

备注: EMNLP 2025 Main Conference


💡 一句话要点

VELA:一种用于评估长图像描述的LLM混合判别器方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长图像描述 自动评估指标 多模态学习 大型语言模型 LLM-as-a-Judge

📋 核心要点

  1. 现有图像描述评估指标主要针对短文本,无法有效评估MLLM生成的长文本描述。
  2. VELA采用LLM混合判别器框架,旨在提升长文本图像描述评估的准确性和效率。
  3. LongCap-Arena基准的建立和VELA的超人性能验证了该方法在长文本评估上的优越性。

📝 摘要(中文)

本研究关注于自动评估多模态大型语言模型(MLLM)生成的长而详细的图像描述。现有的大多数图像描述自动评估指标主要为短描述设计,不适用于评估长描述。此外,最近的LLM-as-a-Judge方法由于依赖自回归推理和视觉信息的早期融合,导致推理速度较慢。为了解决这些限制,我们提出了一种新颖的LLM混合判别器框架下的长描述自动评估指标VELA。此外,我们提出了LongCap-Arena,这是一个专门为评估长描述指标而设计的基准。该基准包含7,805张图像,对应的人工提供的长参考描述和长候选描述,以及来自三个不同角度(描述性、相关性和流畅性)的32,246个人工判断。实验表明,VELA优于现有的指标,并在LongCap-Arena上实现了超人的性能。

🔬 方法详解

问题定义:论文旨在解决长图像描述自动评估的问题。现有方法,特别是为短文本设计的评估指标,无法有效捕捉长描述的丰富细节和上下文信息。同时,直接使用大型语言模型(LLM)作为判别器的方法,由于自回归推理和视觉信息早期融合,计算成本高昂,推理速度慢。

核心思路:论文的核心思路是设计一个LLM混合判别器框架,该框架能够高效且准确地评估长图像描述。通过结合不同的LLM组件,并优化视觉信息的处理方式,VELA旨在克服现有方法的局限性,实现更好的评估性能。

技术框架:VELA框架包含以下主要模块:1) 视觉特征提取模块:用于提取图像的视觉特征。2) 文本特征提取模块:用于提取候选描述和参考描述的文本特征。3) LLM混合判别器:该模块是VELA的核心,它结合了不同的LLM组件,例如,一个用于评估描述性,一个用于评估相关性,一个用于评估流畅性。这些LLM组件协同工作,对候选描述进行综合评估。4) 融合模块:将各个LLM组件的输出进行融合,得到最终的评估分数。

关键创新:VELA的关键创新在于其LLM混合判别器框架。与传统的单一LLM判别器相比,VELA能够更全面地评估长图像描述的各个方面(描述性、相关性和流畅性)。此外,VELA还优化了视觉信息的处理方式,避免了早期融合带来的计算负担。

关键设计:VELA的关键设计包括:1) 针对不同评估角度(描述性、相关性和流畅性)选择合适的LLM组件。2) 设计有效的融合策略,将各个LLM组件的输出进行整合。3) 优化视觉特征的提取和表示方式,以提高评估的准确性。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VELA在LongCap-Arena基准测试中表现出色,超越了现有的评估指标,并达到了超人的性能。具体而言,VELA在描述性、相关性和流畅性三个方面均取得了显著的提升,证明了其在长图像描述评估方面的优越性。实验结果表明,VELA能够更准确地捕捉长描述的细节和上下文信息,从而提供更可靠的评估结果。

🎯 应用场景

该研究成果可应用于多模态内容生成、图像描述质量评估、以及视觉对话系统等领域。高质量的图像描述评估指标能够促进多模态模型的训练和优化,提升生成内容的质量和用户体验。此外,该方法还可以用于自动评估图像搜索引擎返回结果的相关性,提高搜索效率。

📄 摘要(原文)

In this study, we focus on the automatic evaluation of long and detailed image captions generated by multimodal Large Language Models (MLLMs). Most existing automatic evaluation metrics for image captioning are primarily designed for short captions and are not suitable for evaluating long captions. Moreover, recent LLM-as-a-Judge approaches suffer from slow inference due to their reliance on autoregressive inference and early fusion of visual information. To address these limitations, we propose VELA, an automatic evaluation metric for long captions developed within a novel LLM-Hybrid-as-a-Judge framework. Furthermore, we propose LongCap-Arena, a benchmark specifically designed for evaluating metrics for long captions. This benchmark comprises 7,805 images, the corresponding human-provided long reference captions and long candidate captions, and 32,246 human judgments from three distinct perspectives: Descriptiveness, Relevance, and Fluency. We demonstrated that VELA outperformed existing metrics and achieved superhuman performance on LongCap-Arena.