Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles

作者: Eric Slyman, Mehrab Tanjim, Kushal Kafle, Stefan Lee

分类: cs.CV, cs.CL

发布日期: 2025-09-10

备注: 17 pages, 8 figures, Accepted at ICCV 2025

💡 一句话要点

提出MMB方法，通过多模态贝叶斯提示集成校准MLLM在文图生成评判中的偏差。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 文图生成 提示工程 贝叶斯优化

📋 核心要点

现有的MLLM评判模型在评估文图生成任务时存在偏差、过度自信以及跨域表现不一致等问题。
MMB方法通过图像聚类增强贝叶斯提示集成，动态地根据图像视觉特征分配提示权重，从而提升评判的准确性和校准。
在HPSv2和MJBench基准测试中，MMB在与人类标注对齐和校准方面优于现有基线，验证了其有效性。

📝 摘要（中文）

多模态大型语言模型（MLLM）越来越多地被用于评估文本到图像（TTI）生成系统，基于视觉和文本上下文提供自动判断。然而，这些“评判”模型常常存在偏差、过度自信以及在不同图像领域表现不一致的问题。虽然提示集成已显示出在单模态、纯文本设置中缓解这些问题的潜力，但我们的实验表明，标准集成方法无法有效地推广到TTI任务。为了解决这些局限性，我们提出了一种新的多模态感知方法，称为多模态混合贝叶斯提示集成（MMB）。我们的方法使用贝叶斯提示集成方法，并通过图像聚类进行增强，允许评判模型根据每个样本的视觉特征动态地分配提示权重。我们表明，MMB提高了成对偏好判断的准确性，并大大增强了校准效果，从而更容易衡量评判模型的真实不确定性。在HPSv2和MJBench两个TTI基准上的评估中，MMB在与人类注释对齐和跨不同图像内容的校准方面均优于现有基线。我们的研究结果强调了多模态特定策略对于评判模型校准的重要性，并为可靠的大规模TTI评估提出了一个有希望的途径。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）作为文图生成（TTI）系统评判者时存在的偏差、过度自信和跨域性能不一致的问题。现有的提示集成方法在单模态文本任务中表现良好，但直接应用于多模态 TTI 任务时效果不佳，无法有效解决上述问题。

核心思路：论文的核心思路是利用图像的视觉特征来指导提示集成。通过对图像进行聚类，将视觉相似的图像归为一类，然后针对每一类图像学习不同的提示权重。这样，评判模型可以根据输入图像的视觉特征动态地调整提示权重，从而提高评判的准确性和鲁棒性。

技术框架：MMB方法主要包含以下几个阶段：1) 图像聚类：使用预训练的视觉模型提取图像特征，并使用聚类算法（如k-means）将图像划分为若干个簇。2) 贝叶斯提示集成：为每个图像簇构建一个贝叶斯提示集成模型，该模型包含多个不同的提示，并为每个提示分配一个权重。3) 权重学习：使用贝叶斯优化算法，针对每个图像簇，学习一组最优的提示权重，使得评判模型在该簇上的表现最佳。4) 评判：对于一个新的输入图像，首先将其划分到对应的图像簇，然后使用该簇对应的贝叶斯提示集成模型进行评判。

关键创新：MMB方法的关键创新在于将图像的视觉特征融入到提示集成过程中。传统的提示集成方法通常忽略了输入数据的视觉信息，而MMB方法则利用图像聚类将视觉相似的图像分组，并为每个组学习不同的提示权重。这种多模态感知的方法能够更好地适应不同的图像内容，从而提高评判的准确性和鲁棒性。

关键设计：图像聚类使用预训练的视觉模型（例如CLIP）提取图像特征，并使用k-means算法进行聚类。贝叶斯提示集成使用高斯过程作为先验分布，并使用贝叶斯优化算法学习提示权重。损失函数通常采用pairwise ranking loss，鼓励模型对人类偏好进行正确排序。

📊 实验亮点

MMB方法在HPSv2和MJBench两个 TTI 基准测试中取得了显著的性能提升。在与人类标注对齐方面，MMB优于现有的基线方法。更重要的是，MMB显著提高了评判模型的校准效果，使其能够更准确地反映其不确定性。实验结果表明，MMB是一种有效的多模态评判模型校准方法。

🎯 应用场景

该研究成果可应用于大规模文图生成模型的自动评估，减少对人工标注的依赖，加速模型迭代和优化。此外，该方法也可推广到其他多模态评判任务，例如视频质量评估、图像描述生成评估等，具有广泛的应用前景和实际价值。

📄 摘要（原文）

Multimodal large language models (MLLMs) are increasingly used to evaluate text-to-image (TTI) generation systems, providing automated judgments based on visual and textual context. However, these "judge" models often suffer from biases, overconfidence, and inconsistent performance across diverse image domains. While prompt ensembling has shown promise for mitigating these issues in unimodal, text-only settings, our experiments reveal that standard ensembling methods fail to generalize effectively for TTI tasks. To address these limitations, we propose a new multimodal-aware method called Multimodal Mixture-of-Bayesian Prompt Ensembles (MMB). Our method uses a Bayesian prompt ensemble approach augmented by image clustering, allowing the judge to dynamically assign prompt weights based on the visual characteristics of each sample. We show that MMB improves accuracy in pairwise preference judgments and greatly enhances calibration, making it easier to gauge the judge's true uncertainty. In evaluations on two TTI benchmarks, HPSv2 and MJBench, MMB outperforms existing baselines in alignment with human annotations and calibration across varied image content. Our findings highlight the importance of multimodal-specific strategies for judge calibration and suggest a promising path forward for reliable large-scale TTI evaluation.

Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册