MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

📄 arXiv: 2604.18164v1 📥 PDF

作者: Sua Lee, Sanghee Park, Jinbae Im

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-04-20

备注: ACL 2026 Main


💡 一句话要点

提出MM-JudgeBias基准,用于评估多模态大语言模型作为评判者时的组合偏差。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 自动评估 组合偏差 基准测试 模型评估

📋 核心要点

  1. 现有MLLM评判者在整合视觉和文本信息时存在不足,导致评估结果不稳定且易受干扰。
  2. 论文提出MM-JudgeBias基准,通过引入受控扰动来系统评估MLLM评判者的组合偏差。
  3. 实验结果揭示了MLLM在模态利用上的不足和评估倾向,表明需要更可靠的评判模型。

📝 摘要(中文)

多模态大语言模型(MLLM)越来越多地被用作自动评估器,即MLLM-as-a-Judge。然而,它们的可靠性和对偏差的脆弱性仍未被充分探索。研究发现,许多MLLM评判者无法可靠地整合关键的视觉或文本线索,导致在证据缺失或不匹配时产生不可靠的评估,并在语义无关的扰动下表现出不稳定性。为了解决这个问题,论文系统地定义了MLLM-as-a-Judge系统中的组合偏差,并引入了MM-JudgeBias,一个用于评估它的基准。MM-JudgeBias引入了跨查询、图像和响应的受控扰动,并通过两个互补的指标评估模型行为:用于敏感性的偏差偏差(BD)和用于稳定性的偏差一致性(BC)。该数据集包含来自29个源基准的1800多个精心策划和改进的多模态样本,能够对跨不同任务和领域的九种偏差类型进行细粒度诊断。对26个最先进的MLLM的实验表明,存在系统的模态忽视和不对称评估倾向,突显了对更可靠的评判者的需求。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)作为自动评估器(MLLM-as-a-Judge)时存在的组合偏差问题。现有方法缺乏对MLLM在整合不同模态信息时可靠性的系统评估,导致其评估结果容易受到证据缺失、不匹配或语义无关扰动的影响。这些问题限制了MLLM作为可靠评判者的应用。

核心思路:论文的核心思路是通过构建一个包含受控扰动的基准数据集,系统地评估MLLM在不同模态信息组合下的评估行为。通过引入扰动,可以观察MLLM对关键视觉或文本线索的依赖程度,以及在信息缺失或冲突时的评估稳定性。这种方法能够揭示MLLM在模态整合方面的偏差和不足。

技术框架:MM-JudgeBias基准包含以下几个关键组成部分:1) 从29个现有基准中收集并精炼的多模态样本;2) 对查询、图像和响应进行受控扰动,以模拟不同的信息缺失或冲突场景;3) 两个互补的评估指标:偏差偏差(BD),用于衡量模型对扰动的敏感性;偏差一致性(BC),用于衡量模型在扰动下的评估稳定性。整体流程包括数据收集、扰动生成、模型评估和偏差分析。

关键创新:论文的关键创新在于系统地定义了MLLM-as-a-Judge系统中的组合偏差,并提出了一个专门用于评估这种偏差的基准MM-JudgeBias。与现有方法相比,MM-JudgeBias能够更细粒度地诊断MLLM在模态整合方面的不足,并提供更全面的评估结果。此外,论文还提出了两个新的评估指标BD和BC,用于量化MLLM的偏差程度。

关键设计:MM-JudgeBias基准中的扰动设计是关键。论文考虑了多种类型的扰动,包括图像模糊、文本删除、信息替换等,以模拟不同的信息缺失或冲突场景。这些扰动是根据任务和模态的特点精心设计的,以确保能够有效地揭示MLLM的偏差。此外,BD和BC指标的设计也考虑了模型评估的敏感性和稳定性,能够更全面地反映模型的偏差程度。

📊 实验亮点

实验结果表明,现有的26个最先进的MLLM在MM-JudgeBias基准上表现出明显的模态忽视和不对称评估倾向。具体而言,某些模型对视觉信息的依赖程度过高,而忽略了文本信息,反之亦然。此外,不同模型在处理不同类型的扰动时表现出不同的敏感性,表明其评估策略存在偏差。这些结果突显了现有MLLM评判者在可靠性方面的不足。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型在自动评估、内容审核、智能问答等领域的可靠性和公正性。通过使用MM-JudgeBias基准,可以系统地评估和改进MLLM的模态整合能力,减少偏差,从而提高其在实际应用中的表现和可信度。未来的研究可以基于此基准开发更鲁棒和公平的MLLM评判模型。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.