Multi-Task Decision-Making for Multi-User 360 Video Processing over Wireless Networks

📄 arXiv: 2407.03426v1 📥 PDF

作者: Babak Badnava, Jacob Chakareski, Morteza Hashemi

分类: cs.NI, cs.LG, cs.MM

发布日期: 2024-07-03

备注: 2024 IEEE International Conference on Multimedia Information Processing and Retrieval (MIPR)


💡 一句话要点

提出多任务决策方法以优化无线网络中的360视频处理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 360视频处理 无线网络 虚拟现实 深度强化学习 用户体验 多任务决策 边缘计算

📋 核心要点

  1. 现有方法在无线网络环境下处理360视频时,面临数据量大和带宽需求高的挑战。
  2. 论文提出的MTRC方法通过深度强化学习实现多任务速率适应和计算分配,动态调整视频比特率和计算资源分配。
  3. 实验结果表明,MTRC在PSNR、缓冲时间和质量变化方面均显著优于现有的速率适应算法。

📝 摘要(中文)

本研究探讨了在无线多用户虚拟现实系统中进行360视频处理的多任务决策问题。该系统包含一个边缘计算单元(ECU),用于向VR用户传输360视频并提供解码/渲染的计算支持。然而,这会导致数据量和带宽需求的增加。为平衡这一权衡,我们提出了一个受限的用户体验(QoE)最大化问题,限制了用户和视频要求下的缓冲时间和视频帧质量变化。我们利用深度强化学习(DRL)进行多任务速率适应和计算分配(MTRC),该方法不依赖于环境的预定义假设,而是基于视频播放统计信息进行调整。通过真实的无线网络数据和360视频数据集进行训练,结果显示MTRC在平均QoE、峰值信噪比(PSNR)、缓冲时间和质量变化方面均有显著提升。

🔬 方法详解

问题定义:本论文旨在解决在无线多用户虚拟现实系统中进行360视频处理时,如何在保证用户体验的同时,平衡数据量和带宽需求的问题。现有方法往往未能有效应对缓冲时间和视频质量变化的限制。

核心思路:论文提出的MTRC方法利用深度强化学习,基于视频播放统计信息(如过去的吞吐量、解码时间、传输时间等)动态调整视频比特率和计算资源分配,避免了对环境的预定义假设。

技术框架:整体架构包括数据收集模块、深度强化学习模型、决策模块和执行模块。数据收集模块负责获取实时视频播放统计信息,深度强化学习模型用于训练决策策略,决策模块根据模型输出调整比特率和计算分配,执行模块则实现具体的资源分配。

关键创新:MTRC方法的核心创新在于其不依赖于环境的预定义假设,能够自适应调整策略,显著提升用户体验。与传统方法相比,MTRC在动态环境中表现出更强的适应性和灵活性。

关键设计:在设计中,MTRC采用了特定的损失函数来平衡QoE和资源使用,网络结构则基于深度Q学习框架,确保了高效的学习和决策能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,MTRC方法在PSNR上提升了5.97 dB至6.44 dB,缓冲时间改善了1.66倍至4.23倍,质量变化提升了4.21 dB至4.35 dB,显著优于现有的速率适应算法,证明了其有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括无线虚拟现实、在线游戏、远程教育等场景,能够有效提升用户在360视频观看过程中的体验。未来,随着无线网络技术的发展,该方法有望在更广泛的多媒体应用中得到应用,推动虚拟现实技术的普及与发展。

📄 摘要(原文)

We study a multi-task decision-making problem for 360 video processing in a wireless multi-user virtual reality (VR) system that includes an edge computing unit (ECU) to deliver 360 videos to VR users and offer computing assistance for decoding/rendering of video frames. However, this comes at the expense of increased data volume and required bandwidth. To balance this trade-off, we formulate a constrained quality of experience (QoE) maximization problem in which the rebuffering time and quality variation between video frames are bounded by user and video requirements. To solve the formulated multi-user QoE maximization, we leverage deep reinforcement learning (DRL) for multi-task rate adaptation and computation distribution (MTRC). The proposed MTRC approach does not rely on any predefined assumption about the environment and relies on video playback statistics (i.e., past throughput, decoding time, transmission time, etc.), video information, and the resulting performance to adjust the video bitrate and computation distribution. We train MTRC with real-world wireless network traces and 360 video datasets to obtain evaluation results in terms of the average QoE, peak signal-to-noise ratio (PSNR), rebuffering time, and quality variation. Our results indicate that the MTRC improves the users' QoE compared to state-of-the-art rate adaptation algorithm. Specifically, we show a 5.97 dB to 6.44 dB improvement in PSNR, a 1.66X to 4.23X improvement in rebuffering time, and a 4.21 dB to 4.35 dB improvement in quality variation.