MLLM-as-a-Judge Exhibits Model Preference Bias

📄 arXiv: 2604.11589v1 📥 PDF

作者: Shuitsu Koyama, Yuiga Wada, Daichi Yashima, Komei Sugiura

分类: cs.CV

发布日期: 2026-04-13


💡 一句话要点

提出Philautia-Eval评估MLLM偏好偏差,并用Pomms集成模型缓解该偏差。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 模型评估 偏好偏差 集成学习 Philautia-Eval

📋 核心要点

  1. 现有的MLLM-as-a-Judge方法可能存在模型偏好偏差,导致模型评估结果失真,影响科学研究的可靠性。
  2. 提出Philautia-Eval,通过解耦生成质量和偏好倾向,量化MLLM在评估其他模型时存在的偏好偏差。
  3. 实验表明,MLLM存在自偏好和家族内互偏好偏差,并提出Pomms集成方法有效缓解了这种偏差。

📝 摘要(中文)

本文研究了多模态大型语言模型(MLLM)作为评判者(MLLM-as-a-Judge)在评估模型性能时存在的偏好偏差问题。如果MLLM-as-a-Judge方法存在偏差,可能会扭曲模型比较和基准驱动的科学进展。本文提出了Philautia-Eval来研究这种模型特定的偏好偏差,通过分离偏好倾向和生成质量的差异来量化偏差程度。使用从12个MLLM收集的129万个标题-分数对,发现代表性的MLLM倾向于表现出自偏好偏差。实验结果表明,特定模型家族内部存在相互偏好偏差,这可能是由于重复使用的连接器和重叠的指令调整资源驱动的。最后,本文介绍了一种简单的MLLM集成方法Pomms,结果表明Pomms有效地缓解了模型特定的偏好偏差,同时保持了性能。

🔬 方法详解

问题定义:MLLM-as-a-Judge方法被广泛用于评估模型性能,但其潜在的模型偏好偏差可能会导致不公平的评估结果,影响模型比较和基准测试的可靠性。现有方法缺乏有效量化和缓解这种偏好偏差的手段。

核心思路:本文的核心思路是通过设计一种新的评估方法Philautia-Eval,将MLLM的偏好倾向从生成质量的差异中分离出来,从而量化模型特定的偏好偏差。此外,通过集成多个MLLM,利用群体智慧来降低单个模型的偏好偏差。

技术框架:Philautia-Eval包含以下步骤:1) 使用多个MLLM生成图像描述;2) 使用不同的MLLM-as-a-Judge对这些描述进行评分;3) 通过统计分析,解耦生成质量和偏好倾向,量化模型偏好偏差。Pomms是一种简单的集成方法,通过平均多个MLLM的评分来降低偏好偏差。

关键创新:本文的关键创新在于提出了Philautia-Eval,这是一种新的评估框架,能够量化MLLM在评估其他模型时存在的偏好偏差。该框架通过解耦生成质量和偏好倾向,更准确地评估了模型的真实性能。此外,Pomms集成方法提供了一种简单有效的缓解偏好偏差的方案。

关键设计:Philautia-Eval的关键设计在于其偏好偏差量化方法,具体细节未知。Pomms的关键设计在于选择合适的MLLM进行集成,并采用合适的评分平均策略,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,代表性的MLLM倾向于表现出自偏好偏差,并且特定模型家族内部存在相互偏好偏差。Pomms集成方法能够有效缓解模型特定的偏好偏差,同时保持了评估性能,具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于多模态模型评估、基准测试和模型选择等领域。通过使用Philautia-Eval评估MLLM的偏好偏差,可以更公平地比较不同模型的性能,促进多模态人工智能技术的健康发展。Pomms集成方法可以作为一种通用的模型评估工具,提高评估结果的可靠性。

📄 摘要(原文)

Automatic evaluation using multimodal large language models (MLLMs), commonly referred to as MLLM-as-a-Judge, has been widely used to measure model performance. If such MLLM-as-a-Judge methods were biased, they could distort model comparisons and benchmark-driven scientific progress. However, it remains unclear to what extent MLLM-as-a-Judge methods favor or disfavor text generated by specific MLLMs. In this study, we propose Philautia-Eval to investigate such model-specific preference bias. Philautia-Eval quantifies the degree of the bias by disentangling preference tendencies from differences in generation quality. Using 1.29M caption-score pairs collected from 12 MLLMs, we found that representative MLLMs tend to exhibit self-preference bias. Moreover, experimental results indicate mutual preference bias within particular model families, which is potentially driven by reused connectors and overlapping instruction-tuning resources. Finally, we introduce a simple ensemble of MLLMs, Pomms. Our results demonstrated that Pomms effectively mitigated the model-specific preference bias while maintaining performance.