Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation
作者: Pablo Hernández-Cámara, Alexandra Gomez-Villa, Jose Manuel Jaén-Lorites, Jorge Vila-Tomás, Valero Laparra, Jesus Malo
分类: cs.CV
发布日期: 2025-08-14 (更新: 2025-10-14)
💡 一句话要点
提出基于心理物理学的对比敏感度函数评估方法,诊断多模态大语言模型的感知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 对比敏感度函数 心理物理学 感知评估 视觉特征
📋 核心要点
- 现有方法缺乏对多模态大语言模型低级视觉特征处理能力的系统性评估,难以充分理解其感知能力。
- 该研究借鉴人类心理物理学,将模型视为观察者,通过对比敏感度函数(CSF)来评估其感知能力。
- 实验结果表明,不同模型在频率调谐上存在差异,且CSF估计对提示语措辞敏感,并能预测模型在特定条件下的性能。
📝 摘要(中文)
本文提出了一种受人类心理物理学启发的行为方法,用于评估多模态大语言模型(MLLM)的对比敏感度函数(CSF),旨在系统地表征模型处理低级视觉特征的能力。该方法将MLLM视为端到端观察者,通过结构化提示查询模型,同时向其展示经过特定空间频率滤波的噪声刺激。从二元语言响应中导出心理测量函数,并获得对比度阈值(以及CSF),无需依赖内部激活或基于分类器的代理。结果表明,一些模型在形状或尺度上与人类CSF相似,但没有模型能同时捕捉两者。此外,CSF估计对提示语措辞高度敏感,表明语言鲁棒性有限。最后,研究表明CSF可以预测模型在频率滤波和对抗条件下的性能。这些发现突出了MLLM之间频率调谐的系统性差异,并将CSF估计确立为多模态感知的一种可扩展诊断工具。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在低级视觉特征处理上的评估问题。现有方法通常依赖于内部激活或分类器代理,无法直接且系统地评估模型对不同空间频率的敏感度。此外,缺乏对模型语言鲁棒性的考量,即提示语的变化如何影响模型的感知能力。
核心思路:论文的核心思路是将MLLM视为一个端到端的观察者,借鉴人类心理物理学中的对比敏感度函数(CSF)评估方法。通过向模型展示不同空间频率的噪声刺激,并分析模型的语言响应,来推断模型对不同频率的敏感度。这种方法避免了对模型内部机制的直接依赖,提供了一种行为层面的评估手段。
技术框架:该方法主要包含以下几个阶段:1) 生成特定空间频率滤波的噪声刺激;2) 使用结构化提示查询MLLM,同时展示视觉刺激;3) 记录MLLM的二元语言响应(例如,判断是否存在特定模式);4) 基于响应数据构建心理测量函数;5) 从心理测量函数中提取对比度阈值,并计算对比敏感度函数(CSF)。
关键创新:该研究的关键创新在于将心理物理学中的CSF评估方法应用于MLLM,提供了一种无需依赖内部激活或分类器代理的、端到端的感知能力评估方法。此外,该研究还考察了提示语措辞对CSF估计的影响,揭示了MLLM在语言鲁棒性方面的局限性。
关键设计:关键设计包括:1) 使用Gabor滤波器生成不同空间频率和方向的噪声刺激;2) 设计结构化的提示语,例如“是否存在X模式?”,以引导模型进行二元判断;3) 使用Sigmoid函数拟合心理测量函数,并从中提取对比度阈值;4) 通过改变提示语的措辞,评估模型的语言鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,部分MLLM在对比敏感度函数的形状或尺度上与人类相似,但没有模型能同时捕捉两者。研究还发现,CSF估计对提示语措辞高度敏感,表明模型语言鲁棒性有限。此外,CSF能够有效预测模型在频率滤波和对抗条件下的性能,验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于多模态大语言模型的性能评估、模型优化和安全性分析。通过对比敏感度函数,可以诊断模型在处理低级视觉信息方面的缺陷,并指导模型训练,提高其在图像识别、目标检测等任务中的性能。此外,该方法还可以用于评估模型对对抗性攻击的鲁棒性,提高模型的安全性。
📄 摘要(原文)
Understanding how Multimodal Large Language Models (MLLMs) process low-level visual features is critical for evaluating their perceptual abilities and has not been systematically characterized. Inspired by human psychophysics, we introduce a behavioural method for estimating the Contrast Sensitivity Function (CSF) in MLLMs by treating them as end-to-end observers. Models are queried with structured prompts while viewing noise-based stimuli filtered at specific spatial frequencies. Psychometric functions are derived from the binary verbal responses, and contrast thresholds (and CSFs) are obtained without relying on internal activations or classifier-based proxies. Our results reveal that some models resemble human CSFs in shape or scale, but none capture both. We also find that CSF estimates are highly sensitive to prompt phrasing, indicating limited linguistic robustness. Finally, we show that CSFs predict model performance under frequency-filtered and adversarial conditions. These findings highlight systematic differences in frequency tuning across MLLMs and establish CSF estimation as a scalable diagnostic tool for multimodal perception.