Human-in-the-Loop Bandwidth Estimation for Quality of Experience Optimization in Real-Time Video Communication
作者: Sami Khairy, Gabriel Mittag, Vishak Gopal, Ross Cutler
分类: cs.MM, cs.AI, cs.NI, eess.SY
发布日期: 2025-10-14
备注: Accepted for publication in the proceedings of the AAAI Conference on Artificial Intelligence 2026 (IAAI Technical Track on Deployed Highly Innovative Applications of AI)
💡 一句话要点
提出人机闭环带宽估计方法,优化实时视频通信中的用户体验
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 带宽估计 用户体验优化 实时视频通信 人机闭环 离线强化学习
📋 核心要点
- 现有带宽估计方法难以适应快速变化的网络环境和复杂的协议栈,并且缺乏与用户体验的直接关联。
- 该论文提出了一种人机闭环的数据驱动框架,利用主观用户评估训练客观QoE奖励模型,并使用离线强化学习优化带宽估计。
- 实验结果表明,该方法在真实场景中显著降低了不良通话率,并在D4RL任务上展现了良好的泛化能力。
📝 摘要(中文)
视频会议系统的用户体验(QoE)很大程度上取决于对发送者和接收者之间时变可用带宽的准确估计。由于快速演进的网络架构、日益复杂的协议栈以及难以定义可靠改善用户体验的QoE指标,实时通信的带宽估计仍然是一个开放的挑战。本文提出了一种已部署的、人机闭环的、数据驱动的带宽估计框架来应对这些挑战。我们的方法首先训练从主观用户评估中导出的客观QoE奖励模型,以衡量实时视频会议系统中的音频和视频质量。随后,我们从真实的Microsoft Teams通话中收集大约100万条带有客观QoE奖励的网络跟踪,以整理一个带宽估计训练数据集。然后,我们引入了一种新颖的分布式离线强化学习(RL)算法来训练基于神经网络的带宽估计器,旨在提高用户的QoE。我们的真实A/B测试表明,与基线带宽估计器相比,所提出的方法将主观不良通话率降低了11.41%。此外,所提出的离线RL算法在D4RL任务上进行了基准测试,以证明其在带宽估计之外的泛化能力。
🔬 方法详解
问题定义:实时视频通信中,准确估计可用带宽以优化用户体验(QoE)是一个关键问题。现有的带宽估计方法难以适应快速变化的网络环境、日益复杂的协议栈,并且缺乏直接与用户主观体验相关的优化目标。因此,如何有效地利用用户反馈来提升带宽估计的准确性和用户体验成为一个挑战。
核心思路:该论文的核心思路是构建一个人机闭环的带宽估计框架。首先,通过主观用户评估来建立客观的QoE奖励模型,将用户体验量化为可优化的指标。然后,利用大量的真实网络数据训练一个基于神经网络的带宽估计器,并使用离线强化学习算法来优化该估计器,使其能够最大化用户的QoE。
技术框架:整体框架包含以下几个主要阶段:1) QoE奖励模型训练:收集用户对视频通话质量的主观评价,训练一个能够预测客观QoE奖励的模型。2) 数据集构建:从真实的Microsoft Teams通话中收集大量的网络数据,并使用QoE奖励模型为每个数据点分配奖励值,构建带宽估计训练数据集。3) 带宽估计器训练:使用离线强化学习算法训练一个基于神经网络的带宽估计器,目标是最大化QoE奖励。4) A/B测试:在真实环境中进行A/B测试,比较新方法与基线方法的性能。
关键创新:该论文的关键创新在于:1) 人机闭环:将用户的主观体验纳入带宽估计的优化过程中,使得估计器能够更好地适应用户的需求。2) 离线强化学习:使用离线强化学习算法,避免了在线探索带来的风险,并且能够充分利用已有的数据。3) 分布式训练:利用分布式训练加速模型训练过程。
关键设计:QoE奖励模型基于用户主观评价数据训练得到,用于量化视频通话质量。带宽估计器采用神经网络结构,输入包括网络状态信息,输出为带宽估计值。离线强化学习算法采用 distributional offline reinforcement learning,具体算法细节未知(论文未详细描述)。损失函数的设计目标是最大化QoE奖励。A/B测试中,将新方法与基线方法进行对比,评估其在真实环境中的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在真实Microsoft Teams通话场景中,相比于基线带宽估计器,将主观不良通话率降低了11.41%。此外,该离线强化学习算法在D4RL任务上进行了基准测试,证明了其在带宽估计之外的泛化能力,但具体D4RL任务和性能数据未知。
🎯 应用场景
该研究成果可广泛应用于各种实时视频通信系统,如视频会议、在线教育、远程医疗等。通过更准确的带宽估计,可以显著提升用户的视频通话体验,减少卡顿、延迟等问题,提高通信效率。此外,该方法也可以推广到其他需要实时带宽估计的应用场景,例如在线游戏、直播等。
📄 摘要(原文)
The quality of experience (QoE) delivered by video conferencing systems is significantly influenced by accurately estimating the time-varying available bandwidth between the sender and receiver. Bandwidth estimation for real-time communications remains an open challenge due to rapidly evolving network architectures, increasingly complex protocol stacks, and the difficulty of defining QoE metrics that reliably improve user experience. In this work, we propose a deployed, human-in-the-loop, data-driven framework for bandwidth estimation to address these challenges. Our approach begins with training objective QoE reward models derived from subjective user evaluations to measure audio and video quality in real-time video conferencing systems. Subsequently, we collect roughly $1$M network traces with objective QoE rewards from real-world Microsoft Teams calls to curate a bandwidth estimation training dataset. We then introduce a novel distributional offline reinforcement learning (RL) algorithm to train a neural-network-based bandwidth estimator aimed at improving QoE for users. Our real-world A/B test demonstrates that the proposed approach reduces the subjective poor call ratio by $11.41\%$ compared to the baseline bandwidth estimator. Furthermore, the proposed offline RL algorithm is benchmarked on D4RL tasks to demonstrate its generalization beyond bandwidth estimation.