Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

📄 arXiv: 2606.02578v1 📥 PDF

作者: Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim

分类: cs.CV, cs.AI

发布日期: 2026-06-01

备注: ICML 2026


💡 一句话要点

提出基于感知扰动和奖励建模的多模态LLM评判偏见缓解方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 感知判断偏差 奖励建模 视觉推理 数据集构建 自动评估

📋 核心要点

  1. 现有MLLM评判者在视觉证据与文本线索冲突时,易受文本叙述影响,产生感知判断偏差,导致评估结果不准确。
  2. 通过构建感知扰动判断数据集,并结合结构化奖励和批量排序目标,训练更可靠的MLLM评判模型。
  3. 实验表明,该方法显著提高了感知保真度、排序一致性,并与人类评估结果更对齐,提升了评判的可靠性。

📝 摘要(中文)

多模态大型语言模型(MLLM)展现出强大的推理能力,但作为自动评估器的可靠性受限于一个关键弱点:当视觉证据与文本线索冲突时,MLLM评判者倾向于奖励看似合理的叙述,而非感知上正确的答案。本文识别并系统地分析了这种现象,称之为感知判断偏差。通过受控的视觉扰动,现有的多模态评判者经常锚定在响应文本上,而不是他们自己的视觉感知,导致不一致和不可验证的评估。为了解决这个问题,我们引入了感知扰动判断数据集,该数据集构建了最小编辑的反事实响应,以隔离感知错误并实现可验证的监督。在此数据集的基础上,我们开发了一个统一的训练框架,该框架结合了基于GRPO的结构化奖励和批量排序目标,在没有显式成对标签的情况下实现连贯的全局排序。在各种MLLM评判基准上的实验表明,我们的方法显著提高了感知保真度、排序一致性和与人类评估的对齐。我们的结果为训练感知上扎实、可解释且对视觉推理冲突具有鲁棒性的多模态评判者建立了一条可扩展且通用的途径。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)作为自动评估器时存在的感知判断偏差问题。具体来说,当视觉信息与文本描述不一致时,现有的MLLM评判模型倾向于依赖文本信息进行判断,而忽略视觉感知,导致评估结果与实际情况不符。这种偏差使得MLLM在需要视觉推理的评估任务中表现不佳。

核心思路:论文的核心思路是通过引入感知扰动,构建反事实样本,并利用这些样本训练MLLM评判模型,使其更加关注视觉信息,减少对文本信息的过度依赖。通过奖励建模,鼓励模型给出与视觉感知一致的判断,从而缓解感知判断偏差。

技术框架:整体框架包含三个主要部分:1) 感知扰动判断数据集构建:通过对图像进行微小但关键的修改,并生成相应的反事实文本描述,构建包含感知错误的样本。2) 奖励建模:使用GRPO(Generalized Relative Preference Optimization)方法,结合结构化奖励,学习一个奖励模型,用于评估MLLM评判结果的质量。3) 训练框架:将奖励模型与MLLM评判模型结合,使用批量排序目标进行训练,优化MLLM的评判能力。

关键创新:论文的关键创新在于:1) 提出了感知判断偏差的概念,并对其进行了系统分析。2) 构建了感知扰动判断数据集,为训练和评估MLLM评判模型提供了新的资源。3) 提出了结合GRPO和批量排序目标的统一训练框架,有效提高了MLLM评判模型的感知保真度。

关键设计:在数据集构建方面,采用了最小编辑原则,确保扰动只影响关键的视觉信息。在奖励建模方面,使用了GRPO方法,允许模型学习相对偏好,而无需显式的成对标签。在训练方面,使用了批量排序损失,鼓励模型给出连贯的全局排序结果。具体参数设置和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个MLLM评判基准上取得了显著的性能提升。具体而言,感知保真度、排序一致性和与人类评估的对齐程度均得到了大幅提高。例如,在某个基准测试中,该方法的感知保真度提升了XX%(具体数值未知),排序一致性提升了YY%(具体数值未知),与人类评估的对齐程度提升了ZZ%(具体数值未知)。

🎯 应用场景

该研究成果可应用于自动评估多模态内容的质量,例如图像描述生成、视频摘要等任务。通过提高MLLM评判模型的感知保真度,可以更准确地评估生成内容的质量,并为生成模型的训练提供更有效的反馈。此外,该方法还可以应用于机器人视觉、自动驾驶等领域,提高机器对环境的感知和理解能力。

📄 摘要(原文)

Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.