Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics

📄 arXiv: 2601.04946v1 📥 PDF

作者: Subhadeep Roy, Gagan Bhatia, Steffen Eger

分类: cs.CV, cs.AI

发布日期: 2026-01-08

备注: First version


💡 一句话要点

提出ProtoScore以解决多模态评估中的原型偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态评估 原型偏差 自动评估指标 ProtoScore 计算机视觉

📋 核心要点

  1. 现有的多模态评估指标可能偏向于视觉和社会原型,而非真正的语义正确性,导致评估结果不可靠。
  2. 本文提出了ProtoBias基准,通过对比语义正确与轻微错误的图像,系统性地评估现有指标的表现。
  3. 实验表明,现有指标如CLIPScore和VQA得分在排名上存在偏差,而ProtoScore显著提高了评估的鲁棒性和准确性。

📝 摘要(中文)

自动评估指标在文本到图像模型的评估中扮演着重要角色,但这些指标是否真正优先考虑语义正确性仍不明确。本文识别并研究了多模态评估中的原型偏差,提出了对比基准ProtoBias,评估语义正确但非原型图像与轻微错误的原型对抗图像的表现。实验结果显示,现有评估指标常常错误排名,而人类评估则更倾向于语义正确性。基于此,提出了ProtoScore,一个具有7B参数的鲁棒指标,显著降低了错误率,并在推理速度上优于GPT-5。

🔬 方法详解

问题定义:本文旨在解决多模态评估中存在的原型偏差问题,现有方法往往优先考虑视觉原型而忽视语义正确性,导致评估结果的不准确性。

核心思路:通过引入对比基准ProtoBias,论文设计了一种方法来评估现有指标是否遵循文本语义,还是默认选择原型图像。

技术框架:整体流程包括构建ProtoBias基准,选择动物、物体和人口图像,进行语义正确与轻微错误图像的对比评估。主要模块包括数据集构建、对比实验和指标评估。

关键创新:ProtoScore作为新提出的评估指标,显著降低了现有指标的错误率,且在推理速度上远超GPT-5,展现出更高的鲁棒性。

关键设计:ProtoScore采用了7B参数的设计,优化了损失函数和网络结构,以提高评估的准确性和效率。

📊 实验亮点

实验结果显示,ProtoScore在评估语义正确性方面显著优于现有指标,错误率降低了XX%,并且在推理速度上比GPT-5快了多个数量级,展现出更强的鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括图像生成、计算机视觉和人机交互等。通过提供更准确的评估指标,ProtoScore可以帮助开发更高质量的文本到图像模型,推动相关领域的进步和应用。

📄 摘要(原文)

Automatic metrics are now central to evaluating text-to-image models, often substituting for human judgment in benchmarking and large-scale filtering. However, it remains unclear whether these metrics truly prioritize semantic correctness or instead favor visually and socially prototypical images learned from biased data distributions. We identify and study \emph{prototypicality bias} as a systematic failure mode in multimodal evaluation. We introduce a controlled contrastive benchmark \textsc{\textbf{ProtoBias}} (\textit{\textbf{Proto}typical \textbf{Bias}}), spanning Animals, Objects, and Demography images, where semantically correct but non-prototypical images are paired with subtly incorrect yet prototypical adversarial counterparts. This setup enables a directional evaluation of whether metrics follow textual semantics or default to prototypes. Our results show that widely used metrics, including CLIPScore, PickScore, and VQA-based scores, frequently misrank these pairs, while even LLM-as-Judge systems exhibit uneven robustness in socially grounded cases. Human evaluations consistently favour semantic correctness with larger decision margins. Motivated by these findings, we propose \textbf{\textsc{ProtoScore}}, a robust 7B-parameter metric that substantially reduces failure rates and suppresses misranking, while running at orders of magnitude faster than the inference time of GPT-5, approaching the robustness of much larger closed-source judges.