MLLM-as-a-Judge Exhibits Model Preference Bias

作者: Shuitsu Koyama, Yuiga Wada, Daichi Yashima, Komei Sugiura

分类: cs.CV

发布日期: 2026-04-13

💡 一句话要点

提出Philautia-Eval评估MLLM偏好偏差，并用Pomms集成模型缓解该偏差。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 模型评估 偏好偏差 集成学习 Philautia-Eval

📋 核心要点

现有的MLLM-as-a-Judge方法可能存在模型偏好偏差，导致模型评估结果失真，影响科学研究的可靠性。
提出Philautia-Eval，通过解耦生成质量和偏好倾向，量化MLLM在评估其他模型时存在的偏好偏差。
实验表明，MLLM存在自偏好和家族内互偏好偏差，并提出Pomms集成方法有效缓解了这种偏差。

📝 摘要（中文）

本文研究了多模态大型语言模型（MLLM）作为评判者（MLLM-as-a-Judge）在评估模型性能时存在的偏好偏差问题。如果MLLM-as-a-Judge方法存在偏差，可能会扭曲模型比较和基准驱动的科学进展。本文提出了Philautia-Eval来研究这种模型特定的偏好偏差，通过分离偏好倾向和生成质量的差异来量化偏差程度。使用从12个MLLM收集的129万个标题-分数对，发现代表性的MLLM倾向于表现出自偏好偏差。实验结果表明，特定模型家族内部存在相互偏好偏差，这可能是由于重复使用的连接器和重叠的指令调整资源驱动的。最后，本文介绍了一种简单的MLLM集成方法Pomms，结果表明Pomms有效地缓解了模型特定的偏好偏差，同时保持了性能。

🔬 方法详解

问题定义：MLLM-as-a-Judge方法被广泛用于评估模型性能，但其潜在的模型偏好偏差可能会导致不公平的评估结果，影响模型比较和基准测试的可靠性。现有方法缺乏有效量化和缓解这种偏好偏差的手段。

核心思路：本文的核心思路是通过设计一种新的评估方法Philautia-Eval，将MLLM的偏好倾向从生成质量的差异中分离出来，从而量化模型特定的偏好偏差。此外，通过集成多个MLLM，利用群体智慧来降低单个模型的偏好偏差。

技术框架：Philautia-Eval包含以下步骤：1) 使用多个MLLM生成图像描述；2) 使用不同的MLLM-as-a-Judge对这些描述进行评分；3) 通过统计分析，解耦生成质量和偏好倾向，量化模型偏好偏差。Pomms是一种简单的集成方法，通过平均多个MLLM的评分来降低偏好偏差。

关键创新：本文的关键创新在于提出了Philautia-Eval，这是一种新的评估框架，能够量化MLLM在评估其他模型时存在的偏好偏差。该框架通过解耦生成质量和偏好倾向，更准确地评估了模型的真实性能。此外，Pomms集成方法提供了一种简单有效的缓解偏好偏差的方案。

关键设计：Philautia-Eval的关键设计在于其偏好偏差量化方法，具体细节未知。Pomms的关键设计在于选择合适的MLLM进行集成，并采用合适的评分平均策略，具体细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，代表性的MLLM倾向于表现出自偏好偏差，并且特定模型家族内部存在相互偏好偏差。Pomms集成方法能够有效缓解模型特定的偏好偏差，同时保持了评估性能，具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于多模态模型评估、基准测试和模型选择等领域。通过使用Philautia-Eval评估MLLM的偏好偏差，可以更公平地比较不同模型的性能，促进多模态人工智能技术的健康发展。Pomms集成方法可以作为一种通用的模型评估工具，提高评估结果的可靠性。

📄 摘要（原文）

Automatic evaluation using multimodal large language models (MLLMs), commonly referred to as MLLM-as-a-Judge, has been widely used to measure model performance. If such MLLM-as-a-Judge methods were biased, they could distort model comparisons and benchmark-driven scientific progress. However, it remains unclear to what extent MLLM-as-a-Judge methods favor or disfavor text generated by specific MLLMs. In this study, we propose Philautia-Eval to investigate such model-specific preference bias. Philautia-Eval quantifies the degree of the bias by disentangling preference tendencies from differences in generation quality. Using 1.29M caption-score pairs collected from 12 MLLMs, we found that representative MLLMs tend to exhibit self-preference bias. Moreover, experimental results indicate mutual preference bias within particular model families, which is potentially driven by reused connectors and overlapping instruction-tuning resources. Finally, we introduce a simple ensemble of MLLMs, Pomms. Our results demonstrated that Pomms effectively mitigated the model-specific preference bias while maintaining performance.

MLLM-as-a-Judge Exhibits Model Preference Bias

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理