MADRL-Based Rate Adaptation for 360° Video Streaming with Multi-Viewpoint Prediction

📄 arXiv: 2405.07759v2 📥 PDF

作者: Haopeng Wang, Zijian Long, Haiwei Dong, Abdulmotaleb El Saddik

分类: cs.MM, cs.AI, cs.NI, eess.IV

发布日期: 2024-05-13 (更新: 2024-05-17)

备注: Accepted by IEEE Internet of Things Journal

DOI: 10.1109/JIOT.2024.3398548


💡 一句话要点

提出基于MADRL和多视角预测的360°视频码率自适应方法,提升QoE。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 360°视频流媒体 自适应码率 多视点预测 多智能体强化学习 时空注意力Transformer

📋 核心要点

  1. 现有基于单视点预测的ABR方法难以应对用户头部运动的不确定性,导致QoE下降。
  2. 提出一种多模态时空注意力Transformer,预测多个视点轨迹及其概率,提升预测准确性。
  3. 设计基于MADRL的ABR算法,利用多视点预测优化QoE,实验表明QoE提升高达85.5%。

📝 摘要(中文)

近年来,网络上的360°视频流量显著增长。360°视频播放的一个关键挑战是在有限的网络带宽下确保高质量的体验(QoE)。目前,大多数研究集中于基于单视点预测的基于分块的自适应码率(ABR)流媒体,以减少带宽消耗。然而,单视点预测模型的性能受到头部运动固有不确定性的严重限制,无法很好地应对用户的突然移动。本文首先提出了一种多模态时空注意力Transformer,用于生成多个视点轨迹及其概率。该方法将视点预测建模为一个分类问题,并使用注意力机制来捕获输入视频帧和视点轨迹的时空特征,以进行多视点预测。之后,提出了一种基于多智能体深度强化学习(MADRL)的ABR算法,该算法利用多视点预测进行360°视频流传输,以在各种网络条件下最大化不同的QoE目标。我们将ABR问题表述为一个分散的部分可观察马尔可夫决策过程(Dec-POMDP)问题,并提出了一种基于集中训练和分散执行(CTDE)框架的MAPPO算法来解决该问题。实验结果表明,与现有的ABR方法相比,我们提出的方法将定义的QoE指标提高了高达85.5%。

🔬 方法详解

问题定义:现有360°视频的自适应码率(ABR)算法主要依赖于单视点预测,即预测用户下一个时刻会观看哪个区域。然而,用户头部运动具有高度不确定性,尤其是在快速移动时,单视点预测的准确性会显著下降,导致视频质量波动,影响用户体验(QoE)。因此,如何在头部运动不确定的情况下,提升360°视频的QoE是一个关键问题。

核心思路:本文的核心思路是利用多视点预测来应对头部运动的不确定性。不同于以往只预测一个视点,本文预测多个可能的视点轨迹,并给出每个轨迹的概率。这样,即使实际观看的视点与预测的某个视点不完全一致,也能保证用户观看的区域在预测的视点集合中,从而降低视频质量波动的风险。此外,采用多智能体强化学习(MADRL)来优化ABR策略,以适应不同的网络环境和用户行为。

技术框架:整体框架包含两个主要模块:多视点预测模块和基于MADRL的ABR模块。多视点预测模块使用多模态时空注意力Transformer,输入历史视点轨迹和视频帧,输出多个视点轨迹及其概率。ABR模块将每个用户视为一个智能体,利用MAPPO算法进行集中训练和分散执行。每个智能体根据当前的网络状态、缓冲区状态和多视点预测结果,选择合适的码率进行视频流传输。

关键创新:论文的关键创新在于以下两点:一是提出了多模态时空注意力Transformer,用于生成多个视点轨迹及其概率,有效地捕捉了用户头部运动的不确定性。二是将ABR问题建模为Dec-POMDP问题,并利用MAPPO算法进行求解,实现了多用户之间的协同优化,提升了整体的QoE。

关键设计:多模态时空注意力Transformer使用Transformer架构,分别对视点轨迹和视频帧进行编码,然后利用注意力机制融合两种模态的信息。损失函数采用交叉熵损失,用于训练视点预测模型。MAPPO算法中,每个智能体的奖励函数综合考虑了视频质量、质量波动和缓冲延迟等因素,以最大化用户的QoE。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与现有的ABR方法相比,本文提出的方法在QoE指标上取得了显著提升,最高可达85.5%。具体来说,在不同的网络带宽和用户行为模式下,该方法都能有效地降低视频质量波动,减少缓冲延迟,从而提升用户的整体观看体验。此外,实验还验证了多视点预测的有效性,证明其能够更好地应对用户头部运动的不确定性。

🎯 应用场景

该研究成果可应用于各种360°视频流媒体平台,例如VR视频、在线直播、远程教育等。通过提升在复杂网络环境下的QoE,可以改善用户体验,提高用户粘性。此外,多视点预测技术也可以应用于其他需要预测用户行为的场景,例如广告推荐、智能导航等。

📄 摘要(原文)

Over the last few years, 360° video traffic on the network has grown significantly. A key challenge of 360° video playback is ensuring a high quality of experience (QoE) with limited network bandwidth. Currently, most studies focus on tile-based adaptive bitrate (ABR) streaming based on single viewport prediction to reduce bandwidth consumption. However, the performance of models for single-viewpoint prediction is severely limited by the inherent uncertainty in head movement, which can not cope with the sudden movement of users very well. This paper first presents a multimodal spatial-temporal attention transformer to generate multiple viewpoint trajectories with their probabilities given a historical trajectory. The proposed method models viewpoint prediction as a classification problem and uses attention mechanisms to capture the spatial and temporal characteristics of input video frames and viewpoint trajectories for multi-viewpoint prediction. After that, a multi-agent deep reinforcement learning (MADRL)-based ABR algorithm utilizing multi-viewpoint prediction for 360° video streaming is proposed for maximizing different QoE objectives under various network conditions. We formulate the ABR problem as a decentralized partially observable Markov decision process (Dec-POMDP) problem and present a MAPPO algorithm based on centralized training and decentralized execution (CTDE) framework to solve the problem. The experimental results show that our proposed method improves the defined QoE metric by up to 85.5% compared to existing ABR methods.