Rethinking Ground Truth: A Case Study on Human Label Variation in MLLM Benchmarking

📄 arXiv: 2603.19744v1 📥 PDF

作者: Tomas Ruiz, Tanalp Agustoslu, Carsten Schwemmer

分类: cs.CL

发布日期: 2026-03-20

备注: 6 pages, 3 tables, 1 figure

期刊: 2025 IEEE International Conference on Big Data (BigData), 2025

DOI: 10.1109/BigData66926.2025.11401919


💡 一句话要点

提出考虑人类标注差异的多模态大语言模型评测方法,提升内容审核场景的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 基准测试 人类标注差异 内容审核 模型评估

📋 核心要点

  1. 现有MLLM基准测试忽略了人类标注差异,导致模型在主观性较强的任务中表现评估不准确。
  2. 提出一种新的MLLM评估协议,显式考虑人类标注的一致性和差异性,更真实地反映模型性能。
  3. 实验表明,大型模型在标注一致性高的数据上表现更好,但在标注差异大时性能下降,说明参数量并非唯一决定因素。

📝 摘要(中文)

尽管大型语言模型(LLM)发展迅速,但基准测试中人类标注差异(HLV),即标注者判断的系统性差异,仍未得到充分探索。本文通过引入一种多模态大型语言模型(MLLM)基准测试的评估协议来解决这一问题,该协议明确考虑了两个条件:(1)人类标注的一致性;(2)人类标注的差异性。我们将此协议应用于两个最先进的MLLM系列(Gemma 3、Qwen 2.5 VL),使用来自社交媒体内容分类数据集的非聚合人类标注。我们发现,在各项任务中,较大的模型往往在高度一致的子集上表现最佳,但在人类差异较高时,通常不如中等规模的模型,这表明参数数量本身并不能决定对模糊性和主观性的敏感性。这些结果表明,仅基于共识标签的基准测试可能会高估模型在此类领域的能力,而结合人类标注差异可以对内容审核流程中的MLLM进行更现实和稳健的评估。

🔬 方法详解

问题定义:现有MLLM基准测试通常依赖于共识标签(consensus labels),忽略了人类标注者之间的差异。这种做法在主观性较强的任务(例如社交媒体内容分类)中会产生偏差,导致模型性能评估不准确,无法真实反映模型在实际应用中的表现。现有方法的痛点在于无法区分模型是因为理解能力不足,还是因为对主观性内容的处理方式与人类标注者存在差异而导致错误。

核心思路:本文的核心思路是引入人类标注差异(Human Label Variation, HLV)的概念,将其纳入MLLM的评估流程中。通过分析模型在不同标注一致性程度的数据子集上的表现,可以更细致地了解模型对模糊性和主观性的敏感程度。这样可以避免仅仅依赖共识标签而高估模型在实际应用中的能力。

技术框架:该评估协议主要包含以下几个阶段:1)选择具有多个人工标注的数据集;2)根据标注者之间的一致性程度将数据集划分为不同的子集(例如,高一致性、中等一致性、低一致性);3)在每个子集上评估MLLM的性能;4)分析模型在不同子集上的表现差异,从而了解模型对人类标注差异的敏感程度。

关键创新:最重要的技术创新点在于将人类标注差异纳入了MLLM的评估流程中。与传统的基于共识标签的评估方法相比,该方法能够更全面、更真实地反映模型在实际应用中的性能。这种方法可以帮助研究人员更好地了解模型的优势和不足,从而更有针对性地改进模型。

关键设计:论文使用了社交媒体内容分类数据集,该数据集具有多个标注者对每个样本进行标注。论文根据标注者之间的一致性程度,将数据集划分为不同的子集。评估指标包括准确率、精确率、召回率和F1值等。论文还分析了不同规模的MLLM(Gemma 3、Qwen 2.5 VL)在不同子集上的表现差异。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,较大的模型在标注一致性高的数据上表现更好,但在标注差异大时性能反而不如中等规模的模型。例如,在某些任务中,Qwen 2.5 VL 在高一致性数据集上表现优于 Gemma 3,但在低一致性数据集上表现不如 Gemma 3。这表明参数量并非决定模型性能的唯一因素,模型对人类标注差异的敏感程度也至关重要。

🎯 应用场景

该研究成果可应用于内容审核、情感分析、舆情监控等领域。通过考虑人类标注差异,可以更准确地评估MLLM在这些领域的性能,从而提高内容审核的效率和准确性,减少误判和漏判。此外,该方法还可以用于指导模型的训练,使其更好地适应人类的主观判断。

📄 摘要(原文)

Human Label Variation (HLV), i.e. systematic differences among annotators' judgments, remains underexplored in benchmarks despite rapid progress in large language model (LLM) development. We address this gap by introducing an evaluation protocol for multimodal large language model (MLLM) benchmarking that explicitly accounts for two conditions: (1) human label agreement and (2) disagreement. We apply this protocol to two state-of-the-art MLLM families (Gemma 3, Qwen 2.5 VL) using non-aggregated human annotations from a social media content classification dataset. Across tasks, we find that larger models tend to perform best on high-agreement subsets, yet often underperform medium-sized models when human disagreement is high, indicating that parameter count alone does not determine sensitivity to ambiguity and subjectivity. These results show that benchmarks based solely on consensus labels can overstate model capabilities in such domains and that incorporating human label variation yields more realistic and robust assessments of MLLMs in content moderation pipelines.