Subjective and Objective Quality-of-Experience Evaluation Study for Live Video Streaming

作者: Zehao Zhu, Wei Sun, Jun Jia, Wei Wu, Sibin Deng, Kai Li, Ying Chen, Xiongkuo Min, Jia Wang, Guangtao Zhai

分类: cs.MM, cs.AI, eess.IV

发布日期: 2024-09-26

备注: 14 pages, 5 figures

💡 一句话要点

针对直播视频流提出主客观QoE评估方法，并构建TaoLive QoE数据集。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 直播视频 用户体验质量 QoE评估 深度学习 光流

📋 核心要点

现有QoE指标主要针对点播视频，无法有效评估直播视频中特有的失真（如跳帧、变帧率）。
提出Tao-QoE模型，通过融合多尺度语义特征和光流运动特征，实现端到端的直播视频QoE评估。
构建了包含多种直播失真的TaoLive QoE数据集，并验证了Tao-QoE模型在直播场景下的有效性。

📝 摘要（中文）

近年来，直播视频流在各种社交媒体平台上获得了广泛的普及。用户体验质量（QoE）反映了最终用户的满意度和整体体验，对于媒体服务提供商优化大规模直播压缩和传输策略以实现感知上的最佳率失真权衡至关重要。虽然已经提出了许多用于点播视频（VoD）的QoE指标，但在开发直播视频流的QoE指标方面仍然存在重大挑战。为了弥合这一差距，我们对直播视频流的主观和客观QoE评估进行了全面的研究。对于主观QoE研究，我们引入了第一个直播视频流QoE数据集，TaoLive QoE，它由从真实直播中收集的42个源视频和1,155个由于各种流媒体失真而降级的相应失真视频组成，包括传统的流媒体失真（如压缩、卡顿）以及直播流媒体特有的失真（如跳帧、可变帧率等）。随后，进行了一项人工研究，以得出TaoLive QoE数据集中视频的主观QoE分数。对于客观QoE研究，我们在TaoLive QoE数据集以及公开可用的VoD场景QoE数据集上对现有的QoE模型进行了基准测试，强调了当前模型难以准确评估视频QoE，特别是对于直播内容。因此，我们提出了一种端到端的QoE评估模型Tao-QoE，它集成了多尺度语义特征和基于光流的运动特征，以预测回顾性的QoE分数，从而消除了对统计服务质量（QoS）特征的依赖。

🔬 方法详解

问题定义：现有QoE评估方法，特别是针对点播视频设计的，无法准确反映直播视频流的质量。直播视频流引入了新的失真类型，例如跳帧和可变帧率，这些失真对用户体验有显著影响。因此，需要一种专门为直播视频设计的QoE评估方法。

核心思路：论文的核心思路是构建一个端到端的QoE评估模型，该模型能够直接从视频内容中提取特征，并预测用户的QoE得分，而无需依赖传统的统计QoS特征。通过融合多尺度语义特征和光流运动特征，模型能够捕捉视频内容和运动信息，从而更准确地反映视频质量。

技术框架：Tao-QoE模型是一个端到端的深度学习模型，其主要流程如下：1) 输入视频帧序列；2) 使用卷积神经网络提取多尺度语义特征；3) 使用光流算法提取运动特征；4) 将语义特征和运动特征融合；5) 使用回归模型预测QoE得分。

关键创新：该论文的关键创新在于：1) 提出了TaoLive QoE数据集，该数据集包含多种直播视频失真，为直播视频QoE评估提供了基准；2) 提出了Tao-QoE模型，该模型能够有效地融合多尺度语义特征和光流运动特征，从而更准确地评估直播视频的QoE；3) Tao-QoE模型无需依赖统计QoS特征，使其更适用于实际的直播视频流场景。

关键设计：Tao-QoE模型使用了预训练的卷积神经网络（如ResNet）来提取多尺度语义特征。光流特征使用TV-L1算法计算。语义特征和运动特征通过连接操作进行融合。QoE得分使用均方误差（MSE）损失函数进行训练。模型的具体网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

Tao-QoE模型在TaoLive QoE数据集上取得了显著的性能提升，相较于现有的QoE模型，在预测准确性方面有明显改善。实验结果表明，Tao-QoE模型能够有效地捕捉直播视频中的各种失真，并准确地预测用户的QoE得分。具体性能数据在论文中有详细展示。

🎯 应用场景

该研究成果可应用于直播平台、视频会议系统、在线教育等领域，帮助优化视频编码和传输策略，提升用户观看体验。通过准确评估直播视频的QoE，服务提供商可以更好地分配资源，降低卡顿率，提高用户满意度，从而增强用户粘性。

📄 摘要（原文）

In recent years, live video streaming has gained widespread popularity across various social media platforms. Quality of experience (QoE), which reflects end-users' satisfaction and overall experience, plays a critical role for media service providers to optimize large-scale live compression and transmission strategies to achieve perceptually optimal rate-distortion trade-off. Although many QoE metrics for video-on-demand (VoD) have been proposed, there remain significant challenges in developing QoE metrics for live video streaming. To bridge this gap, we conduct a comprehensive study of subjective and objective QoE evaluations for live video streaming. For the subjective QoE study, we introduce the first live video streaming QoE dataset, TaoLive QoE, which consists of $42$ source videos collected from real live broadcasts and $1,155$ corresponding distorted ones degraded due to a variety of streaming distortions, including conventional streaming distortions such as compression, stalling, as well as live streaming-specific distortions like frame skipping, variable frame rate, etc. Subsequently, a human study was conducted to derive subjective QoE scores of videos in the TaoLive QoE dataset. For the objective QoE study, we benchmark existing QoE models on the TaoLive QoE dataset as well as publicly available QoE datasets for VoD scenarios, highlighting that current models struggle to accurately assess video QoE, particularly for live content. Hence, we propose an end-to-end QoE evaluation model, Tao-QoE, which integrates multi-scale semantic features and optical flow-based motion features to predicting a retrospective QoE score, eliminating reliance on statistical quality of service (QoS) features.