V-FAT: Benchmarking Visual Fidelity Against Text-bias
作者: Ziteng Wang, Yujie He, Guanliang Li, Siqi Yang, Jiaqi Xiong, Songxiang Liu
分类: cs.CL, cs.CV, cs.LG, cs.MM
发布日期: 2026-01-08
备注: 12 pages, 6 figures
💡 一句话要点
V-FAT基准测试揭示多模态大语言模型中文本偏差下的视觉保真度问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉推理 文本偏差 视觉保真度 基准测试 VQA 视觉鲁棒性
📋 核心要点
- 现有MLLM在视觉推理任务中表现出色,但过度依赖文本信息,忽略了视觉信息的真实性。
- 论文提出V-FAT基准测试,通过构建视觉与文本冲突的样本,评估模型对视觉信息的依赖程度。
- 实验结果表明,现有MLLM在高文本偏差下视觉能力显著下降,突出了视觉保真度问题。
📝 摘要(中文)
多模态大语言模型(MLLM)在标准视觉推理基准测试中表现出令人印象深刻的性能。然而,人们越来越担心这些模型过度依赖语言捷径,而不是真正的视觉基础,我们称之为文本偏差。本文研究了视觉感知和语言先验之间的根本矛盾。我们将这种偏差的来源分解为两个维度:内部语料库偏差,源于预训练中的统计相关性;外部指令偏差,源于对齐诱导的谄媚倾向。为了量化这种影响,我们引入了V-FAT(Visual Fidelity Against Text-bias),这是一个诊断基准,包含跨六个语义领域的4,026个VQA实例。V-FAT采用三级评估框架,系统地增加视觉证据和文本信息之间的冲突:(L1)来自非典型图像的内部偏差,(L2)来自误导性指令的外部偏差,以及(L3)两者同时发生的协同偏差。我们引入了视觉鲁棒性分数(VRS),这是一种旨在惩罚“幸运”语言猜测并奖励真正视觉保真度的指标。我们对12个前沿MLLM的评估表明,虽然模型在现有基准测试中表现出色,但在高语言主导下会经历显著的视觉崩溃。
🔬 方法详解
问题定义:现有MLLM在VQA等视觉推理任务中表现良好,但存在过度依赖文本先验知识的问题,即“文本偏差”。这种偏差导致模型在视觉信息不足或与文本信息冲突时,无法做出正确的判断。现有方法缺乏对模型视觉保真度的有效评估,难以衡量模型对视觉信息的真实依赖程度。
核心思路:论文的核心思路是通过构建视觉信息与文本信息存在冲突的测试样本,来评估模型对视觉信息的依赖程度。具体来说,通过操纵图像内容和指令信息,人为引入内部语料库偏差和外部指令偏差,从而迫使模型在视觉信息和文本信息之间做出选择。模型在这些冲突样本上的表现,能够反映其视觉保真度。
技术框架:V-FAT基准测试采用三级评估框架:L1层引入来自非典型图像的内部偏差;L2层引入来自误导性指令的外部偏差;L3层同时引入内部和外部偏差,形成协同偏差。该框架系统性地增加视觉证据和文本信息之间的冲突程度。同时,论文提出了视觉鲁棒性分数(VRS)作为评估指标,该指标惩罚“幸运”的语言猜测,奖励真正的视觉保真度。
关键创新:V-FAT基准测试的关键创新在于其系统性地解耦和量化了文本偏差的两个来源:内部语料库偏差和外部指令偏差。通过三级评估框架,V-FAT能够更全面地评估MLLM的视觉保真度。VRS指标的设计也考虑了模型可能存在的语言捷径,从而更准确地反映了模型的视觉能力。
关键设计:V-FAT基准测试包含4,026个VQA实例,涵盖六个语义领域。在L1层,通过选择非典型的图像来引入内部偏差,例如,展示一只紫色的香蕉。在L2层,通过提供误导性的指令来引入外部偏差,例如,“图中香蕉是什么颜色的?答案是黄色”。L3层则同时使用非典型图像和误导性指令。VRS指标的具体计算方法未知,但其核心思想是惩罚模型在没有充分视觉证据的情况下做出的正确猜测。
📊 实验亮点
实验结果表明,现有12个前沿MLLM在V-FAT基准测试中表现出显著的视觉崩溃现象,在高语言主导下,模型对视觉信息的依赖程度大幅下降。这表明现有模型在视觉保真度方面存在不足,需要进一步改进。VRS指标能够有效区分模型的视觉能力和语言捷径,为评估MLLM的视觉保真度提供了一种新的方法。
🎯 应用场景
该研究成果可应用于评估和改进多模态大语言模型的视觉理解能力,提高模型在实际应用中的可靠性和鲁棒性。例如,在自动驾驶、医疗影像分析等领域,模型需要准确理解视觉信息,避免受到文本偏差的影响。V-FAT基准测试可以帮助开发者识别和解决模型中的视觉缺陷,提升模型的性能。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive performance on standard visual reasoning benchmarks. However, there is growing concern that these models rely excessively on linguistic shortcuts rather than genuine visual grounding, a phenomenon we term Text Bias. In this paper, we investigate the fundamental tension between visual perception and linguistic priors. We decouple the sources of this bias into two dimensions: Internal Corpus Bias, stemming from statistical correlations in pretraining, and External Instruction Bias, arising from the alignment-induced tendency toward sycophancy. To quantify this effect, we introduce V-FAT (Visual Fidelity Against Text-bias), a diagnostic benchmark comprising 4,026 VQA instances across six semantic domains. V-FAT employs a Three-Level Evaluation Framework that systematically increases the conflict between visual evidence and textual information: (L1) internal bias from atypical images, (L2) external bias from misleading instructions, and (L3) synergistic bias where both coincide. We introduce the Visual Robustness Score (VRS), a metric designed to penalize "lucky" linguistic guesses and reward true visual fidelity. Our evaluation of 12 frontier MLLMs reveals that while models excel in existing benchmarks, they experience significant visual collapse under high linguistic dominance.