eBandit: Kernel-Driven Reinforcement Learning for Adaptive Video Streaming

📄 arXiv: 2604.08791v1 📥 PDF

作者: Mahdi Alizadeh

分类: cs.NI, cs.AI

发布日期: 2026-04-09


💡 一句话要点

提出eBandit以解决自适应视频流中的网络监测不足问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自适应比特率 视频流 网络监测 Linux内核 多臂老虎机 eBPF QoE 实时决策

📋 核心要点

  1. 现有的自适应比特率算法无法实时获取关键的网络状态信息,导致响应延迟和视频播放质量下降。
  2. eBandit通过将网络监测和ABR算法选择移至Linux内核,利用eBPF实现更快速的决策和响应。
  3. 在实验中,eBandit在合成和真实场景中均表现出色,显著提高了视频流的质量体验(QoE)。

📝 摘要(中文)

用户空间的自适应比特率(ABR)算法无法直接获取对视频流质量至关重要的传输层信号,如最小RTT和瞬时传输速率,因此只能在网络变化后被动响应,导致播放缓冲区受到影响。为此,本文提出了eBandit框架,通过eBPF将网络监测和ABR算法选择迁移至Linux内核中。该框架内置轻量级的ε-贪婪多臂老虎机(MAB),根据实时TCP指标评估三种ABR启发式算法的效果。在对抗性合成追踪中,eBandit实现了416.3 ± 4.9的累积QoE,超越最佳静态启发式算法7.2%。在42个真实会话中,eBandit每个数据块的平均QoE为1.241,展示了内核驻留的多臂老虎机学习在异构移动条件下的有效性。

🔬 方法详解

问题定义:本文旨在解决用户空间ABR算法在面对网络变化时的响应延迟问题。现有方法无法实时获取关键的网络信号,导致播放缓冲区受到影响,影响用户体验。

核心思路:eBandit的核心思路是将网络监测和ABR算法选择迁移至Linux内核,通过eBPF实现对网络状态的实时监控,从而快速做出响应。该方法利用轻量级的ε-贪婪多臂老虎机算法,根据实时TCP指标评估不同的ABR策略。

技术框架:eBandit的整体架构包括网络监测模块、ABR算法选择模块和反馈机制。网络监测模块实时收集TCP指标,ABR算法选择模块基于收集的数据评估不同策略的效果,反馈机制则用于优化算法选择。

关键创新:eBandit的主要创新在于将ABR算法的决策过程移至内核空间,利用eBPF实现低延迟的网络监测和快速决策。这一设计与传统的用户空间算法相比,显著提高了响应速度和视频流质量。

关键设计:在设计中,eBandit使用了ε-贪婪策略来平衡探索与利用,确保在不同网络条件下能够选择最优的ABR策略。具体的参数设置和损失函数设计未在摘要中详细说明,需参考原文获取更多技术细节。

🖼️ 关键图片

fig_0

📊 实验亮点

在对抗性合成追踪中,eBandit实现了416.3 ± 4.9的累积QoE,超越最佳静态启发式算法7.2%。在42个真实会话中,eBandit每个数据块的平均QoE为1.241,成为所有策略中表现最佳的方案,展示了其在异构移动条件下的有效性。

🎯 应用场景

eBandit的研究成果具有广泛的应用潜力,尤其在移动视频流媒体、在线游戏和实时视频会议等领域。通过提高视频流的自适应能力,能够显著提升用户体验,减少缓冲和卡顿现象。未来,该技术还可能扩展到其他需要实时网络适应的应用场景中。

📄 摘要(原文)

User-space Adaptive Bitrate (ABR) algorithms cannot see the transport layer signals that matter most, such as minimum RTT and instantaneous delivery rate, and they respond to network changes only after damage has already propagated to the playout buffer. We present eBandit, a framework that relocates both network monitoring and ABR algorithm selection into the Linux kernel using eBPF. A lightweight epsilon-greedy Multi-Armed Bandit (MAB) runs inside a sockops program, evaluating three ABR heuristics against a reward derived from live TCP metrics. On an adversarial synthetic trace eBandit achieves $416.3 \pm 4.9$ cumulative QoE, outperforming the best static heuristic by $7.2\%$. On 42 real-world sessions eBandit achieves a mean QoE per chunk of $1.241$, the highest across all policies, demonstrating that kernel-resident bandit learning transfers to heterogeneous mobile conditions.