VQualA 2025 Challenge on Visual Quality Comparison for Large Multimodal Models: Methods and Results
作者: Hanwei Zhu, Haoning Wu, Zicheng Zhang, Lingyu Zhu, Yixuan Li, Peilin Chen, Shiqi Wang, Chris Wei Zhou, Linhan Cao, Wei Sun, Xiangyang Zhu, Weixia Zhang, Yucheng Zhu, Jing Liu, Dandan Zhu, Guangtao Zhai, Xiongkuo Min, Zhichao Zhang, Xinyue Li, Shubo Xu, Anh Dao, Yifan Li, Hongyuan Yu, Jiaojiao Yi, Yiding Tian, Yupeng Wu, Feiran Sun, Lijuan Liao, Song Jiang
分类: cs.CV
发布日期: 2025-09-11
备注: ICCV VQualA Workshop 2025
💡 一句话要点
VQualA 2025挑战赛:评估并提升大型多模态模型在视觉质量比较方面的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉质量评估 大型多模态模型 视觉质量比较 开放域推理 基准数据集
📋 核心要点
- 现有LMM在开放域视觉质量比较方面能力不足,缺乏细粒度质量判断和推理能力。
- 构建包含粗细粒度视觉质量比较任务的新基准,并采用整体评估协议,促进模型发展。
- 挑战赛吸引了约100名参与者,五个模型展示了LMM在质量评估方面的潜力,推动领域发展。
📝 摘要(中文)
本文总结了作为ICCV 2025视觉质量评估研讨会一部分的VQualA 2025大型多模态模型视觉质量比较挑战赛。该挑战赛旨在评估和提升最先进的大型多模态模型(LMMs)在执行开放式和详细推理多个图像之间的视觉质量差异方面的能力。为此,比赛引入了一个新颖的基准,包含数千个由粗到细粒度的视觉质量比较任务,涵盖单张图像、图像对和多图像组。每个任务都要求模型提供准确的质量判断。比赛强调整体评估协议,包括基于2AFC的二元偏好和多项选择题(MCQs)。大约100名参与者提交了参赛作品,其中五个模型展示了指令调整LMMs在质量评估方面的新兴能力。这项挑战标志着朝着开放域视觉质量推理和比较迈出的重要一步,并为未来可解释和人类对齐的质量评估系统的研究提供了催化剂。
🔬 方法详解
问题定义:现有的大型多模态模型在视觉质量评估方面,尤其是在开放域场景下,缺乏足够的细粒度推理和比较能力。它们难以准确判断图像质量的细微差异,并且在多图像场景下的质量比较表现不佳。现有的视觉质量评估方法通常针对特定类型的失真或数据集,泛化能力有限。
核心思路:该挑战赛的核心思路是通过构建一个大规模、多样化的视觉质量比较基准,并采用全面的评估协议,来激发和评估LMM在视觉质量评估方面的能力。通过提供从粗到细粒度的比较任务,鼓励模型学习更细致的质量特征,并进行更深入的推理。
技术框架:VQualA 2025挑战赛的技术框架主要包括以下几个部分:1)构建包含数千个视觉质量比较任务的新基准,涵盖单张图像、图像对和多图像组;2)设计由粗到细粒度的视觉质量比较任务,要求模型提供准确的质量判断;3)采用整体评估协议,包括基于2AFC的二元偏好和多项选择题(MCQs);4)组织比赛,吸引研究人员提交模型并进行评估。
关键创新:该挑战赛的关键创新在于:1)构建了一个大规模、多样化的视觉质量比较基准,涵盖了各种图像质量问题和比较场景;2)采用了整体评估协议,能够更全面地评估模型的视觉质量评估能力;3)强调了开放域视觉质量推理和比较,鼓励模型学习更通用的质量评估能力。
关键设计:该挑战赛的关键设计包括:1)基准数据集的构建,需要考虑图像质量的多样性和比较任务的难度;2)评估指标的选择,需要能够准确反映模型的视觉质量评估能力;3)比赛的组织和管理,需要确保公平性和透明度。
🖼️ 关键图片
📊 实验亮点
挑战赛吸引了约100名参与者,提交了各种LMM模型。其中,五个模型展示了指令调整LMMs在质量评估方面的新兴能力,表明LMM在视觉质量评估领域具有巨大的潜力。具体的性能数据和对比基线将在后续的详细报告中公布。
🎯 应用场景
该研究成果可应用于图像/视频质量监控、图像增强算法评估、图像编辑工具优化等领域。高质量的视觉内容对于提升用户体验至关重要,该研究有助于开发更智能、更符合人类感知的视觉质量评估系统,从而提升相关应用的用户满意度,并推动多媒体内容创作与分发的发展。
📄 摘要(原文)
This paper presents a summary of the VQualA 2025 Challenge on Visual Quality Comparison for Large Multimodal Models (LMMs), hosted as part of the ICCV 2025 Workshop on Visual Quality Assessment. The challenge aims to evaluate and enhance the ability of state-of-the-art LMMs to perform open-ended and detailed reasoning about visual quality differences across multiple images. To this end, the competition introduces a novel benchmark comprising thousands of coarse-to-fine grained visual quality comparison tasks, spanning single images, pairs, and multi-image groups. Each task requires models to provide accurate quality judgments. The competition emphasizes holistic evaluation protocols, including 2AFC-based binary preference and multi-choice questions (MCQs). Around 100 participants submitted entries, with five models demonstrating the emerging capabilities of instruction-tuned LMMs on quality assessment. This challenge marks a significant step toward open-domain visual quality reasoning and comparison and serves as a catalyst for future research on interpretable and human-aligned quality evaluation systems.