Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

📄 arXiv: 2602.22659v1 📥 PDF

作者: Renyu Yang, Jian Jin, Lili Meng, Meiqin Liu, Yilin Wang, Balu Adsumilli, Weisi Lin

分类: cs.CV, cs.MM

发布日期: 2026-02-26

备注: Accepted to ICASSP 2026. 5 pages (main paper) + 8 pages (supplementary material)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于众包的音视频质量评估数据集构建方法,并发布YT-NTU-AVQ数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频质量评估 众包 数据集构建 多模态感知 主观质量评价

📋 核心要点

  1. 现有AVQA数据集规模小、多样性不足,且仅有总体质量评分,限制了多模态感知模型的发展。
  2. 提出基于众包的AVQA数据集构建方法,突破实验室限制,保证数据质量和场景覆盖。
  3. 构建了迄今最大、最多样化的YT-NTU-AVQ数据集,包含1620个用户生成音视频序列。

📝 摘要(中文)

音视频质量评估(AVQA)研究受到现有数据集的限制:规模小,内容和质量多样性不足,且仅标注总体分数。这些缺点限制了模型开发和多模态感知研究。本文提出了一种实用的AVQA数据集构建方法。首先,设计了一个用于AVQA的众包主观实验框架,打破了实验室环境的限制,实现了跨不同环境的可靠标注。其次,采用系统的数据准备策略,确保质量水平和语义场景的广泛覆盖。第三,通过额外的标注扩展数据集,从而能够研究多模态感知机制及其与内容的关系。最后,通过YT-NTU-AVQ验证了该方法,YT-NTU-AVQ是迄今为止最大、最多样化的AVQA数据集,包含1620个用户生成的音视频(A/V)序列。数据集和平台代码可在https://github.com/renyu12/YT-NTU-AVQ获取。

🔬 方法详解

问题定义:现有的音视频质量评估(AVQA)数据集存在规模小、内容和质量多样性不足的问题,并且通常只提供整体质量评分,缺乏细粒度的标注信息。这使得研究人员难以训练出鲁棒性强、泛化能力好的AVQA模型,也限制了对多模态感知机制的深入研究。现有数据集的构建方式也多局限于实验室环境,难以模拟真实场景下的复杂情况。

核心思路:本文的核心思路是利用众包的方式,构建大规模、多样化的AVQA数据集。通过精心设计的众包实验框架,打破实验室环境的限制,收集来自不同环境下的主观质量评价。同时,采用系统的数据准备策略,确保数据集在质量水平和语义场景上具有广泛的覆盖。此外,还通过额外的标注扩展数据集,为研究多模态感知机制及其与内容的关系提供支持。

技术框架:该方法主要包含以下几个阶段:1) 众包实验框架设计:设计合理的实验流程和界面,指导参与者进行主观质量评价。2) 数据准备策略:系统地选择和处理音视频数据,确保数据集在质量水平和语义场景上具有广泛的覆盖。3) 数据标注:通过众包平台收集用户对音视频质量的主观评价,并进行质量控制。4) 数据集扩展:添加额外的标注信息,例如场景描述、内容标签等,以支持更深入的研究。

关键创新:该方法的关键创新在于将众包技术应用于AVQA数据集的构建,突破了传统实验室环境的限制,实现了大规模、多样化的数据收集。此外,该方法还注重数据集的质量控制和扩展,为研究多模态感知机制提供了更丰富的信息。

关键设计:在众包实验框架设计方面,需要考虑如何引导参与者进行客观、准确的质量评价。例如,可以采用成对比较、绝对类别评分等方法,并提供清晰的指导说明。在数据准备方面,需要选择具有代表性的音视频数据,并进行适当的预处理,例如调整分辨率、帧率等。在数据标注方面,需要设计合理的标注规范,并对参与者进行培训,以确保标注质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究构建了迄今为止最大、最多样化的AVQA数据集YT-NTU-AVQ,包含1620个用户生成的音视频序列。通过众包实验,收集了大量主观质量评价数据,并进行了严格的质量控制。该数据集的发布将极大地促进AVQA领域的研究进展,为开发更先进的音视频处理算法提供有力支持。

🎯 应用场景

该研究成果可广泛应用于视频监控、在线会议、流媒体服务等领域。高质量的AVQA数据集能够促进相关算法的开发和优化,提升用户体验。例如,可以利用该数据集训练AVQA模型,用于自动评估视频质量,并根据评估结果动态调整编码参数,以在有限带宽下提供最佳的观看体验。此外,该数据集还可以用于研究多模态感知机制,为开发更智能的音视频处理算法提供理论支持。

📄 摘要(原文)

Audio-visual quality assessment (AVQA) research has been stalled by limitations of existing datasets: they are typically small in scale, with insufficient diversity in content and quality, and annotated only with overall scores. These shortcomings provide limited support for model development and multimodal perception research. We propose a practical approach for AVQA dataset construction. First, we design a crowdsourced subjective experiment framework for AVQA, breaks the constraints of in-lab settings and achieves reliable annotation across varied environments. Second, a systematic data preparation strategy is further employed to ensure broad coverage of both quality levels and semantic scenarios. Third, we extend the dataset with additional annotations, enabling research on multimodal perception mechanisms and their relation to content. Finally, we validate this approach through YT-NTU-AVQ, the largest and most diverse AVQA dataset to date, consisting of 1,620 user-generated audio and video (A/V) sequences. The dataset and platform code are available at https://github.com/renyu12/YT-NTU-AVQ