Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation

📄 arXiv: 2505.15249v2 📥 PDF

作者: Yerin Hwang, Dongryeol Lee, Kyungmin Min, Taegwan Kang, Yong-il Kim, Kyomin Jung

分类: cs.CL, cs.CV

发布日期: 2025-05-21 (更新: 2025-11-15)

备注: EMNLP 2025 Main (21pgs, 12 Tables, 9 Figures)


💡 一句话要点

揭示LVLM评估的视觉偏见:对抗性图像操纵可欺骗LVLM评判

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视觉语言模型 图像-文本对齐 对抗性攻击 视觉偏见 鲁棒性评估

📋 核心要点

  1. 现有LVLM在图像-文本对齐评估中被广泛应用,但其对视觉模态的鲁棒性不足,易受对抗性攻击。
  2. 通过定义图像诱导偏见,并构建多领域元评估基准FRAME,系统性地研究了视觉操纵对LVLM评判的影响。
  3. 实验表明,LVLM评判器易受视觉偏见影响,即使采用基于提示的缓解策略也无法有效消除这些偏见。

📝 摘要(中文)

大型视觉语言模型(LVLM)已成为评估文本-图像对齐的首选工具,但其在视觉模态上的鲁棒性仍未得到充分探索。本研究首次探讨了一个关键问题:对抗性视觉操纵能否系统性地欺骗LVLM评判器,使其给出不公平的高分?我们定义了T2I评估中潜在的图像诱导偏见,并研究这些偏见如何影响LVLM评判器的评估。此外,我们引入了一个新颖的、细粒度的、多领域元评估基准FRAME,该基准经过精心构建,以展示不同的分数分布。通过将定义的偏见引入基准,我们发现所有测试的LVLM评判器在所有领域都表现出脆弱性,始终提高被操纵图像的分数。进一步的分析表明,组合多个偏见会放大其影响,并且成对评估同样容易受到影响。此外,我们观察到视觉偏见在基于提示的缓解策略下仍然存在,突显了当前LVLM评估系统的脆弱性,并强调了对更强大的LVLM评判器的迫切需求。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLM)在图像-文本对齐评估中存在的视觉偏见问题。现有方法依赖LVLM进行评估,但忽略了LVLM在视觉模态上的脆弱性,容易受到对抗性图像操纵的影响,导致评估结果不准确。

核心思路:论文的核心思路是通过系统性地引入和分析图像诱导偏见,来揭示LVLM评判器的脆弱性。通过构建包含多种偏见的测试集,观察LVLM对这些偏见的反应,从而评估其鲁棒性。这种方法能够量化视觉偏见对LVLM评估结果的影响。

技术框架:论文的技术框架主要包括三个部分:1) 定义图像诱导偏见,例如图像清晰度、色彩饱和度等;2) 构建多领域元评估基准FRAME,该基准包含多个领域的图像-文本对,并具有不同的分数分布;3) 通过将定义的偏见引入FRAME基准,评估LVLM评判器的表现,并分析偏见的影响。

关键创新:论文的关键创新在于首次系统性地研究了LVLM评判器在图像-文本对齐评估中存在的视觉偏见问题。通过定义图像诱导偏见和构建多领域元评估基准FRAME,为评估LVLM的鲁棒性提供了一种新的方法。与现有方法相比,该方法能够更全面地评估LVLM在视觉模态上的表现。

关键设计:论文的关键设计包括:1) 图像诱导偏见的定义,例如模糊、噪声、颜色变化等;2) FRAME基准的构建,该基准包含多个领域的数据,并具有不同的分数分布,以保证评估的全面性;3) 实验设置,包括选择不同的LVLM评判器、设置不同的偏见强度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有测试的LVLM评判器都容易受到视觉偏见的影响,即使采用基于提示的缓解策略也无法有效消除这些偏见。例如,通过引入模糊、噪声等偏见,LVLM评判器给出的分数会显著提高,表明其对图像质量的敏感性较低。此外,组合多个偏见会放大其影响,进一步降低LVLM评判器的准确性。

🎯 应用场景

该研究成果可应用于提升视觉语言模型的鲁棒性和安全性,例如在图像检索、图像描述、视觉问答等任务中,可以利用该研究发现的视觉偏见来设计更有效的对抗训练方法,提高模型在真实场景下的泛化能力。此外,该研究也为构建更可靠的图像-文本对齐评估体系提供了参考。

📄 摘要(原文)

Recently, large vision-language models (LVLMs) have emerged as the preferred tools for judging text-image alignment, yet their robustness along the visual modality remains underexplored. This work is the first study to address a key research question: Can adversarial visual manipulations systematically fool LVLM judges into assigning unfairly inflated scores? We define potential image induced biases within the context of T2I evaluation and examine how these biases affect the evaluations of LVLM judges. Moreover, we introduce a novel, fine-grained, multi-domain meta-evaluation benchmark named FRAME, which is deliberately constructed to exhibit diverse score distributions. By introducing the defined biases into the benchmark, we reveal that all tested LVLM judges exhibit vulnerability across all domains, consistently inflating scores for manipulated images. Further analysis reveals that combining multiple biases amplifies their effects, and pairwise evaluations are similarly susceptible. Moreover, we observe that visual biases persist under prompt-based mitigation strategies, highlighting the vulnerability of current LVLM evaluation systems and underscoring the urgent need for more robust LVLM judges.