Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution Input
作者: Chenxu Li, Zhicai Wang, Yuan Sheng, Xingyu Zhu, Yanbin Hao, Xiang Wang
分类: cs.CV, cs.CL
发布日期: 2025-10-19 (更新: 2025-11-14)
备注: 23 pages
💡 一句话要点
提出Res-Bench,评估多模态大语言模型在动态分辨率输入下的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 分辨率鲁棒性 基准测试 性能评估 动态分辨率 鲁棒性指标 模型微调
📋 核心要点
- 现有MLLM评估侧重语义性能,忽略了模型在不同分辨率下的鲁棒性。
- Res-Bench基准和评估框架,通过鲁棒性指标评估模型在不同分辨率下的性能稳定性。
- 实验分析了模型和任务的鲁棒性,以及预处理和微调对稳定性的影响。
📝 摘要(中文)
多模态大语言模型(MLLM)越来越多地支持动态图像分辨率。然而,目前的评估范式主要评估语义性能,忽略了一个关键问题,即分辨率鲁棒性——性能在不同输入分辨率下是否保持稳定。为了解决这个差距,我们引入了Res-Bench,这是一个全面的基准,包含14,400个样本,跨越12个分辨率级别和六个核心能力维度。我们设计了一个新颖的评估框架,超越了传统的准确性指标,以捕捉性能稳定性。该框架引入了多个鲁棒性指标:Spearman相关性用于评估分辨率-性能趋势,以及绝对/相对连续误差(ACE/RCE)用于测量性能波动。使用这些指标,我们对领先的MLLM进行了大规模评估。我们的分析包括:(1)以模型为中心和以任务为中心的鲁棒性检查,(2)对包括填充和超分辨率在内的预处理策略的调查,以及(3)对用于增强稳定性的微调的探索。
🔬 方法详解
问题定义:现有的大型多模态模型(MLLM)在处理图像时,虽然支持动态分辨率输入,但缺乏对模型在不同分辨率下性能稳定性的系统评估。现有的评估方法主要关注语义理解的准确性,忽略了分辨率变化对模型性能的影响,这可能导致模型在实际应用中表现不稳定。
核心思路:Res-Bench的核心思路是构建一个全面的基准测试集,并设计相应的评估指标,以量化MLLM在不同分辨率输入下的鲁棒性。通过分析模型在不同分辨率下的性能变化趋势和波动程度,从而全面评估模型对分辨率变化的敏感程度。
技术框架:Res-Bench包含以下几个主要组成部分:1)包含14,400个样本的基准数据集,覆盖12个分辨率级别和6个核心能力维度;2)评估框架,包括Spearman相关性(评估分辨率-性能趋势)和绝对/相对连续误差ACE/RCE(评估性能波动)等鲁棒性指标;3)实验分析,包括模型和任务的鲁棒性分析,预处理策略(填充、超分辨率)的影响,以及微调对稳定性的提升效果。
关键创新:Res-Bench的关键创新在于:1)首次关注MLLM在动态分辨率输入下的鲁棒性问题;2)提出了Spearman相关性和ACE/RCE等鲁棒性指标,用于量化模型在不同分辨率下的性能稳定性;3)构建了一个大规模的基准测试集,为MLLM的鲁棒性评估提供了标准化的平台。
关键设计:在基准数据集构建方面,论文作者精心选择了覆盖不同分辨率级别和核心能力的样本,以保证评估的全面性。在评估指标设计方面,Spearman相关性用于衡量分辨率与性能之间的单调关系,ACE/RCE用于衡量性能的波动程度。此外,论文还研究了填充、超分辨率等预处理方法,以及微调对模型鲁棒性的影响。
📊 实验亮点
Res-Bench对多个领先的MLLM进行了大规模评估,结果表明,不同模型在分辨率鲁棒性方面存在显著差异。实验还发现,某些预处理策略(如超分辨率)可以提升模型的鲁棒性,而通过微调也可以有效增强模型在不同分辨率下的性能稳定性。具体性能数据和对比基线在论文中有详细呈现。
🎯 应用场景
Res-Bench的研究成果可应用于评估和提升多模态大语言模型在实际应用中的可靠性,例如在自动驾驶、智能安防、医疗影像分析等领域,确保模型在不同图像分辨率下都能稳定可靠地工作。该基准测试集和评估方法可以促进相关领域的研究进展,推动更鲁棒的多模态大语言模型的发展。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) increasingly support dynamic image resolutions. However, current evaluation paradigms primarily assess semantic performance, overlooking the critical question of resolution robustness - whether performance remains stable across varying input resolutions. To address this gap, we introduce \textbf{Res-Bench}, a comprehensive benchmark comprising 14,400 samples across 12 resolution levels and six core capability dimensions. We designed a novel evaluation framework that goes beyond traditional accuracy metrics to capture performance stability. This framework introduces multiple robustness metrics: Spearman's correlation for assessing resolution-performance trends, and Absolute/Relative Continuous Error (ACE/RCE) for measuring performance volatility. Using these metrics, we conducted a large-scale evaluation of leading MLLMs. Our analysis encompasses: (1) model-centric and task-centric robustness examination, (2) investigation of preprocessing strategies including padding and super-resolution, and (3) exploration of fine-tuning for stability enhancement.