VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions
作者: Kazuki Matsuda, Yuiga Wada, Shinnosuke Hirano, Seitaro Otsuki, Komei Sugiura
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-09-30
备注: EMNLP 2025 Main Conference
💡 一句话要点
VELA:提出一种LLM混合判别器方法,用于评估长图像描述
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长图像描述评估 多模态大型语言模型 LLM-as-a-Judge 混合判别器 LongCap-Arena
📋 核心要点
- 现有图像描述评估指标主要针对短文本,无法有效评估MLLM生成的长文本描述。
- VELA采用LLM混合判别器框架,旨在提升长文本图像描述评估的准确性和效率。
- LongCap-Arena基准的实验结果表明,VELA在长文本描述评估任务上超越了现有方法。
📝 摘要(中文)
本研究关注于自动评估多模态大型语言模型(MLLM)生成的长而详细的图像描述。现有的图像描述自动评估指标主要为短描述设计,不适用于长描述的评估。此外,最近的LLM-as-a-Judge方法由于依赖自回归推理和视觉信息的早期融合,推理速度较慢。为了解决这些限制,我们提出VELA,一种在新型LLM混合判别器框架内开发的长描述自动评估指标。此外,我们提出了LongCap-Arena,一个专门为评估长描述指标而设计的基准。该基准包含7,805张图像,对应的人工提供的长参考描述和长候选描述,以及来自三个不同角度(描述性、相关性和流畅性)的32,246个人工判断。实验表明,VELA优于现有指标,并在LongCap-Arena上实现了超人的性能。
🔬 方法详解
问题定义:论文旨在解决长图像描述的自动评估问题。现有方法,特别是为短文本设计的评估指标,无法有效捕捉长描述的丰富细节和上下文信息。此外,直接使用LLM作为判别器的方法,由于自回归推理和视觉信息早期融合,计算成本高昂,效率低下。
核心思路:论文的核心思路是利用LLM的强大语言理解能力,但避免完全依赖自回归推理,并采用混合判别器框架。通过结合不同的评估策略,提升评估的准确性和效率。
技术框架:VELA的整体框架包含以下几个主要模块:1) 视觉特征提取模块,用于提取图像的视觉特征;2) 文本特征提取模块,用于提取参考描述和候选描述的文本特征;3) LLM混合判别器,该判别器结合了不同的评估策略,例如基于相似度的评估和基于LLM的评估;4) 融合模块,用于融合不同评估策略的结果,得到最终的评估分数。
关键创新:VELA的关键创新在于LLM混合判别器框架。该框架允许灵活地结合不同的评估策略,从而更好地捕捉长描述的复杂性和细微差别。此外,通过避免完全依赖自回归推理,VELA显著提高了评估效率。
关键设计:VELA的关键设计包括:1) 使用预训练的视觉模型(如CLIP)提取图像特征;2) 使用预训练的语言模型(如BERT或LLaMA)提取文本特征;3) 设计合适的相似度度量函数,用于计算参考描述和候选描述之间的相似度;4) 设计合适的LLM提示语,引导LLM进行评估;5) 使用加权平均或学习的方法融合不同评估策略的结果。
📊 实验亮点
VELA在LongCap-Arena基准测试中表现出色,超越了现有的自动评估指标,甚至达到了超人的性能。具体而言,VELA在描述性、相关性和流畅性三个方面均取得了显著提升。这些结果表明,VELA能够更准确地评估长图像描述的质量。
🎯 应用场景
该研究成果可广泛应用于多模态内容生成、图像描述生成、视觉问答等领域。高质量的自动评估指标能够促进MLLM的开发和优化,提升生成内容的质量和用户体验。此外,该方法还可以应用于其他长文本生成任务的评估,例如故事生成和对话生成。
📄 摘要(原文)
In this study, we focus on the automatic evaluation of long and detailed image captions generated by multimodal Large Language Models (MLLMs). Most existing automatic evaluation metrics for image captioning are primarily designed for short captions and are not suitable for evaluating long captions. Moreover, recent LLM-as-a-Judge approaches suffer from slow inference due to their reliance on autoregressive inference and early fusion of visual information. To address these limitations, we propose VELA, an automatic evaluation metric for long captions developed within a novel LLM-Hybrid-as-a-Judge framework. Furthermore, we propose LongCap-Arena, a benchmark specifically designed for evaluating metrics for long captions. This benchmark comprises 7,805 images, the corresponding human-provided long reference captions and long candidate captions, and 32,246 human judgments from three distinct perspectives: Descriptiveness, Relevance, and Fluency. We demonstrated that VELA outperformed existing metrics and achieved superhuman performance on LongCap-Arena.