VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal Evaluation

📄 arXiv: 2604.25235v1 📥 PDF

作者: Divake Kumar, Sina Tayebati, Devashri Naik, Ranganath Krishnan, Amit Ranjan Trivedi

分类: cs.LG, cs.CL, cs.CV, stat.ML

发布日期: 2026-04-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于共形预测的VLM评判不确定性分析方法,揭示任务依赖性并识别排序-评分解耦问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态评估 共形预测 不确定性量化 排序-评分解耦

📋 核心要点

  1. 现有VLM评判器缺乏可靠性指标,难以评估其评分的可信度,阻碍了其在多模态评估中的应用。
  2. 利用共形预测框架,将VLM的评分转化为校准的预测区间,量化评估其在不同视觉任务中的不确定性。
  3. 实验表明,VLM评判器的不确定性高度依赖于任务类型,并揭示了排序能力与评分可靠性之间的解耦现象。

📝 摘要(中文)

视觉-语言模型(VLM)越来越多地被用作多模态系统的自动评判器,但它们的分数没有提供可靠性的指示。本文通过共形预测研究了这个问题,共形预测是一种无分布框架,它仅使用分数-token对数概率将评判器的点分数转换为校准的预测区间,无需重新训练。本文首次对VLM作为评判器进行了系统的共形预测分析,涵盖了3个评判器和14个视觉任务类别。结果表明,评估不确定性强烈依赖于任务:美学和自然图像的区间覆盖了约40%的分数范围,而图表和数学推理的区间扩大到约70%,从而产生了多模态评估的定量可靠性图。此外,本文还发现了一种标准评估指标未捕获的失效模式,即排序-评分解耦,其中评判器实现了高排序相关性,但产生了宽泛的、信息量不足的区间,正确地对响应进行排序,但未能分配可靠的绝对分数。最后,本文表明区间宽度主要由任务难度和标注质量驱动,即在干净的多标注字幕基准上,相同的评判器和方法产生了窄4.5倍的区间。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)作为多模态系统自动评判器时,其评分缺乏可靠性指标的问题。现有方法通常只关注VLM的排序能力,而忽略了其评分的绝对可信度,这限制了VLM在需要可靠评分的场景中的应用。现有评估方法无法有效捕捉VLM评分的不确定性,导致难以判断评分结果是否可信。

核心思路:论文的核心思路是利用共形预测(Conformal Prediction)框架,将VLM的评分转化为一个校准的预测区间,从而量化评估VLM评分的不确定性。共形预测是一种无分布的方法,它不需要对数据分布做任何假设,只需要利用VLM输出的分数和token的对数概率,就可以构建一个置信区间。这样设计的目的是为了提供一个更可靠的评估指标,帮助用户判断VLM评分的可信度。

技术框架:整体框架包括以下几个主要步骤:1) 使用VLM对多模态数据进行评分;2) 利用VLM输出的分数和token的对数概率,构建共形预测模型;3) 使用共形预测模型,将VLM的评分转化为一个校准的预测区间;4) 分析预测区间的宽度,评估VLM评分的不确定性。该框架不需要对VLM进行重新训练,可以直接应用于现有的VLM模型。

关键创新:论文最重要的技术创新点在于将共形预测框架应用于VLM评判器的不确定性分析。与传统的评估方法相比,共形预测可以提供一个更可靠的评估指标,帮助用户判断VLM评分的可信度。此外,论文还首次对VLM作为评判器进行了系统的共形预测分析,涵盖了多个评判器和多个视觉任务类别,揭示了VLM评分不确定性的任务依赖性。

关键设计:论文的关键设计包括:1) 使用分数-token对数概率作为共形预测的输入特征;2) 使用校准后的预测区间宽度作为VLM评分不确定性的指标;3) 对不同视觉任务类别进行分组,分析VLM评分不确定性的任务依赖性。论文还特别关注了排序-评分解耦问题,即VLM可以正确地对响应进行排序,但无法分配可靠的绝对分数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VLM评判器的不确定性高度依赖于任务类型。在美学和自然图像任务中,预测区间覆盖了约40%的分数范围,而在图表和数学推理任务中,区间扩大到约70%。此外,实验还揭示了排序-评分解耦现象,即VLM可以正确排序,但评分区间宽泛,表明评分不可靠。在干净的多标注字幕基准上,区间宽度缩小了4.5倍,验证了标注质量对VLM评分可靠性的影响。

🎯 应用场景

该研究成果可应用于多模态内容生成、评估和选择等领域。例如,在图像字幕生成任务中,可以利用该方法评估不同VLM生成字幕的质量和可信度,选择最可靠的字幕。此外,该方法还可以用于构建更可靠的多模态评测基准,推动多模态人工智能技术的发展。

📄 摘要(原文)

Vision-language models (VLMs) are increasingly used as automated judges for multimodal systems, yet their scores provide no indication of reliability. We study this problem through conformal prediction, a distribution-free framework that converts a judge's point score into a calibrated prediction interval using only score-token log-probabilities, with no retraining. We present the first systematic analysis of conformal prediction for VLM-as-a-Judge across 3 judges and 14 visual task categories. Our results show that evaluation uncertainty is strongly task-dependent: intervals cover ~40% of the score range for aesthetics and natural images but expand to ~70% for chart and mathematical reasoning, yielding a quantitative reliability map for multimodal evaluation. We further identify a failure mode not captured by standard evaluation metrics, ranking-scoring decoupling, where judges achieve high ranking correlation while producing wide, uninformative intervals, correctly ordering responses but failing to assign reliable absolute scores. Finally, we show that interval width is driven primarily by task difficulty and annotation quality, i.e., the same judge and method yield 4.5x narrower intervals on a clean, multi-annotator captioning benchmark. Code: https://github.com/divake/VLM-Judge-Uncertainty