VersusQ: Pairwise Margin Reasoning for Generalizable Video Quality Assessment

📄 arXiv: 2605.21130v1 📥 PDF

作者: Shibei Meng, Binxin Yang, Yuan Liu, Jiexuan Zhang, Zhengyao Lv, Hubery Yin, Qiang Xu

分类: cs.CV

发布日期: 2026-05-20


💡 一句话要点

VersusQ:基于成对边际推理的通用视频质量评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频质量评估 多模态模型 成对比较 边际推理 跨域泛化 关系推理 连续回归

📋 核心要点

  1. 现有视频质量评估方法依赖绝对分数预测,易受数据集偏差影响,泛化性差。
  2. VersusQ通过直接比较视频对,预测质量差异边际,减轻了数据集校准偏差。
  3. Margin-Coupled GRPO联合优化关系推理和边际回归,提升了可解释性和准确性。

📝 摘要(中文)

大型多模态模型(LMMs)在视频质量评估方面展现了潜力,但现有方法大多预测每个视频的绝对分数。这种点式监督容易将感知质量与数据集特定的校准(包括标注协议、评分习惯和分数分布)混淆。因此,学习到的评分规则在一个基准测试中可能表现良好,但在未见过的领域中泛化能力较差。我们认为,相对比较通过专注于纯粹的感知差异而非数据集特定的评分习惯,可以减轻绝对尺度校准偏差。因此,我们提出了VersusQ,一个完全由直接比较驱动的成对边际推理框架。具体来说,VersusQ执行两个视频之间基于LMM的比较,推理它们的视觉和时间质量差异,并预测一个有符号的连续边际,该边际捕捉了首选选择和差异程度。此外,为了将可解释的比较理由与细粒度的数值差异对齐,我们引入了Margin-Coupled GRPO,它联合优化基于rollout的关系推理和连续边际回归。在多个公共VQA基准上的大量实验表明,VersusQ实现了最先进的性能、强大的跨域泛化能力以及在异构评估场景下可靠的细粒度排序。

🔬 方法详解

问题定义:现有的视频质量评估方法通常采用点式监督,即直接预测视频的绝对质量得分。这种方法的痛点在于,它容易受到数据集特有偏差的影响,例如标注协议、评分习惯和分数分布等。因此,模型学习到的评分规则往往依赖于特定数据集的校准,导致在跨数据集或跨领域的泛化能力较差。模型无法真正学习到视频的感知质量,而是学习到了数据集的特性。

核心思路:VersusQ的核心思路是通过相对比较来减轻绝对尺度校准偏差。具体来说,模型不是直接预测单个视频的质量得分,而是比较两个视频的质量,并预测它们之间的质量差异边际。这种方法专注于感知差异,而非数据集特定的评分习惯,从而提高了模型的泛化能力。通过成对比较,模型能够学习到更鲁棒的质量评估标准。

技术框架:VersusQ的整体框架包含以下几个主要模块:1) LMM-based Comparison:使用大型多模态模型(LMMs)提取视频的视觉和时间特征。2) Visual and Temporal Quality Difference Reasoning:推理两个视频在视觉和时间质量上的差异。3) Signed Continuous Margin Prediction:预测一个有符号的连续边际,该边际捕捉了首选选择和差异程度。4) Margin-Coupled GRPO:联合优化基于rollout的关系推理和连续边际回归,以对齐可解释的比较理由与细粒度的数值差异。

关键创新:VersusQ的关键创新在于其成对边际推理框架和Margin-Coupled GRPO。成对边际推理通过相对比较减轻了数据集偏差,提高了泛化能力。Margin-Coupled GRPO则通过联合优化关系推理和边际回归,实现了可解释性和准确性的提升。与现有方法相比,VersusQ更关注视频之间的相对质量差异,而非绝对质量得分,从而更鲁棒。

关键设计:Margin-Coupled GRPO是VersusQ的关键设计之一。它包含两个主要部分:1) Rollout-based Relational Reasoning:通过rollout策略进行关系推理,提取视频之间的关系特征。2) Continuous Margin Regression:使用回归模型预测连续的质量差异边际。Margin-Coupled GRPO的损失函数包含两部分:关系推理损失和边际回归损失。通过联合优化这两个损失,可以使模型学习到更准确和可解释的质量评估标准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VersusQ在多个公共VQA基准上取得了最先进的性能,并展现了强大的跨域泛化能力。实验结果表明,VersusQ在异构评估场景下能够实现可靠的细粒度排序。具体性能数据在论文中给出,相较于现有方法有显著提升,尤其在跨数据集评估中表现突出,证明了其鲁棒性和泛化性。

🎯 应用场景

VersusQ可应用于各种视频质量评估场景,例如视频编码优化、视频传输质量监控、视频内容推荐等。该研究的实际价值在于提高了视频质量评估的准确性和泛化能力,从而可以更好地服务于用户,提升用户体验。未来,VersusQ可以进一步扩展到其他多媒体质量评估领域,例如图像质量评估、音频质量评估等。

📄 摘要(原文)

Large Multimodal Models (LMMs) have shown promise for video quality assessment, but most methods still predict an absolute score for each video. Such pointwise supervision often mixes perceptual quality with dataset-specific calibration, including annotation protocols, rating habits, and score distributions. As a result, the learned scoring rule may work well within a benchmark but transfer poorly across unseen domains. We argue that relative comparisons alleviate the absolute-scale calibration bias by focusing purely on perceptual differences rather than dataset-specific rating habits. Consequently, we propose \textbf{VersusQ}, a pairwise margin reasoning framework driven entirely by direct comparisons. Specifically, VersusQ performs LMM-based comparison between two videos, reasons about their visual and temporal quality differences, and predicts a signed continuous margin that captures both the preferred choice and the degree of difference. Furthermore, to align interpretable comparison rationales with fine-grained numerical differences, we introduce Margin-Coupled GRPO, which jointly optimizes rollout-based relational reasoning and continuous margin regression. Extensive experiments on multiple public VQA benchmarks demonstrate that VersusQ achieves state-of-the-art performance, strong cross-domain generalization, and reliable fine-grained ranking under heterogeneous evaluation scenarios.