Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

作者: Renyu Yang, Jian Jin, Lili Meng, Meiqin Liu, Yilin Wang, Balu Adsumilli, Weisi Lin

分类: cs.CV, cs.MM

发布日期: 2026-02-28

💡 一句话要点

提出基于众包的音视频质量评估数据集构建方法，并发布大规模数据集YT-NTU-AVQ。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频质量评估 多模态感知 众包 数据集构建 主观质量评估

📋 核心要点

现有AVQA数据集规模小、多样性不足，且仅有整体质量评分，限制了多模态感知模型的发展。
设计众包实验框架，突破实验室限制，实现跨环境的可靠标注，并系统性地覆盖质量和语义场景。
构建了迄今最大、最多样化的AVQA数据集YT-NTU-AVQ，包含1620个用户生成音视频序列。

📝 摘要（中文）

音视频质量评估(AVQA)研究受到现有数据集的限制：规模小，内容和质量多样性不足，且仅标注整体分数。这些缺点限制了模型开发和多模态感知研究。我们提出了一种实用的AVQA数据集构建方法。首先，我们设计了一个用于AVQA的众包主观实验框架，打破了实验室环境的限制，实现了跨不同环境的可靠标注。其次，采用系统的数据准备策略，确保质量水平和语义场景的广泛覆盖。第三，我们使用额外的标注扩展数据集，从而能够研究多模态感知机制及其与内容的关系。最后，我们通过YT-NTU-AVQ验证了这种方法，YT-NTU-AVQ是迄今为止最大、最多样化的AVQA数据集，包含1,620个用户生成的音频和视频(A/V)序列。数据集和平台代码已公开。

🔬 方法详解

问题定义：现有的音视频质量评估数据集规模较小，内容和质量多样性不足，标注信息也比较单一，通常只有整体质量评分。这使得研究人员难以训练出泛化能力强、能够理解复杂场景的多模态质量评估模型。现有数据集的构建方式也多局限于实验室环境，难以反映真实用户的使用场景。

核心思路：论文的核心思路是通过众包的方式，构建一个大规模、多样化的音视频质量评估数据集。通过精心设计的众包实验框架，打破实验室环境的限制，收集来自不同环境下的用户主观评分。同时，采用系统的数据准备策略，确保数据集覆盖各种质量水平和语义场景。

技术框架：该方法主要包含三个阶段：1) 众包实验框架设计：设计用户友好的界面和流程，确保用户能够方便地进行音视频质量评估，并提供可靠的评分。2) 数据准备策略：系统性地选择和处理音视频数据，确保数据集覆盖各种质量水平和语义场景。3) 数据集扩展：在基本质量评分的基础上，增加额外的标注信息，例如场景描述、内容标签等，以便支持更深入的多模态感知研究。

关键创新：该方法的关键创新在于将众包模式引入到音视频质量评估数据集的构建中。传统的AVQA数据集构建依赖于实验室环境，成本高昂且难以扩展。而众包模式可以利用大量用户的力量，快速构建大规模、多样化的数据集。此外，该方法还提出了一套系统的数据准备策略，确保数据集的质量和代表性。

关键设计：在众包实验框架设计方面，需要考虑如何控制标注质量，例如通过设置质量控制问题、对用户评分进行一致性检验等。在数据准备策略方面，需要仔细选择音视频来源，并进行适当的预处理，例如调整分辨率、裁剪时长等。此外，还需要设计合适的标注规范，确保标注信息的一致性和准确性。

🖼️ 关键图片

📊 实验亮点

论文构建了迄今为止最大、最多样化的AVQA数据集YT-NTU-AVQ，包含1620个用户生成的音视频序列。该数据集不仅规模庞大，而且覆盖了各种质量水平和语义场景，为多模态质量评估研究提供了有力支持。通过该数据集，研究人员可以训练出更准确、更鲁棒的AVQA模型。

🎯 应用场景

该研究成果可广泛应用于视频平台、直播应用、在线教育等领域，提升用户体验。高质量的AVQA数据集能够促进多模态质量评估模型的发展，从而实现更准确、更智能的质量监控和优化，例如自适应码率调整、内容推荐等。未来，该数据集还可用于研究人类对音视频质量的感知机制。

📄 摘要（原文）

Audio-visual quality assessment (AVQA) research has been stalled by limitations of existing datasets: they are typically small in scale, with insufficient diversity in content and quality, and annotated only with overall scores. These shortcomings provide limited support for model development and multimodal perception research. We propose a practical approach for AVQA dataset construction. First, we design a crowdsourced subjective experiment framework for AVQA, breaks the constraints of in-lab settings and achieves reliable annotation across varied environments. Second, a systematic data preparation strategy is further employed to ensure broad coverage of both quality levels and semantic scenarios. Third, we extend the dataset with additional annotations, enabling research on multimodal perception mechanisms and their relation to content. Finally, we validate this approach through YT-NTU-AVQ, the largest and most diverse AVQA dataset to date, consisting of 1,620 user-generated audio and video (A/V) sequences. The dataset and platform code are available atthis https URL

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理