Deep Reinforcement Learning-driven Edge Offloading for Latency-constrained XR pipelines

作者: Sourya Saha, Saptarshi Debroy

分类: cs.CV

发布日期: 2026-03-17

备注: Accepted at the The 26th IEEE International Symposium on Cluster, Cloud, and Internet Computing (CCGrid 2026)

💡 一句话要点

提出基于深度强化学习的边缘卸载框架，优化时延约束XR应用

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 边缘计算 深度强化学习 扩展现实 计算卸载 时延优化

📋 核心要点

现有边缘计算卸载方法难以兼顾XR应用的时延敏感性和设备电池寿命。
提出基于深度强化学习的在线决策机制，动态调整执行位置，平衡时延和能耗。
实验表明，该方法显著延长电池寿命，同时保证高时延合规性，即使在网络受限时依然有效。

📝 摘要（中文）

沉浸式扩展现实(XR)应用对时延非常敏感，需要在能量和电池受限的设备上满足严格的实时响应。这使得在终端设备和附近边缘服务器之间进行执行位置选择成为一个根本的系统挑战。现有的自适应执行和计算卸载方法通常优化平均性能指标，不能完全捕捉实时时延需求与闭环XR工作负载中设备电池寿命之间的持续交互。本文提出了一种面向边缘辅助XR系统的电池感知执行管理框架，该框架联合考虑了执行位置、工作负载质量、时延需求和电池动态。我们设计了一种基于轻量级深度强化学习策略的在线决策机制，该机制在动态网络条件下持续调整执行决策，同时保持较高的运动到光子时延合规性。实验结果表明，在稳定的网络条件下，与时延最优的本地执行相比，该方法可将预计的设备电池寿命延长高达163%，同时保持超过90%的运动到光子时延合规性。即使在网络带宽可用性受到显著限制的情况下，这种合规性也不会低于80%，从而证明了在沉浸式XR系统中显式管理时延-能量权衡的有效性。

🔬 方法详解

问题定义：现有边缘计算卸载策略通常优化平均性能指标，忽略了XR应用对实时性的严格要求以及设备电池寿命的限制。在动态网络条件下，如何根据XR应用的具体需求，在设备端和边缘服务器之间合理分配计算任务，以满足时延约束并延长电池寿命，是一个亟待解决的问题。

核心思路：本文的核心思路是利用深度强化学习(DRL)来学习一个最优的卸载策略。该策略能够根据当前的网络状态、设备电量、XR应用的负载情况等信息，动态地决定哪些任务在本地执行，哪些任务卸载到边缘服务器执行。通过不断地与环境交互，DRL策略能够学习到如何在时延和能耗之间进行权衡，从而最大化设备的电池寿命，同时满足XR应用的时延要求。

技术框架：该框架主要包含以下几个模块：1) 环境建模：对网络状态、设备电量、XR应用负载等进行建模，作为DRL智能体的输入。2) DRL智能体：基于深度神经网络，学习最优的卸载策略。3) 执行管理器：根据DRL智能体的决策，将任务分配到本地或边缘服务器执行。4) 奖励函数设计：设计合理的奖励函数，引导DRL智能体学习到期望的策略，例如，时延合规性、电池寿命等。

关键创新：该论文的关键创新在于将深度强化学习应用于边缘计算卸载问题，并针对XR应用的特殊需求，设计了电池感知的奖励函数。与传统的基于规则或优化的卸载策略相比，该方法能够更好地适应动态变化的网络环境，并实现时延和能耗之间的有效权衡。此外，该方法采用轻量级的DRL策略，降低了计算开销，使其更适合在资源受限的边缘设备上部署。

关键设计：论文采用的DRL智能体基于深度Q网络(DQN)。状态空间包括网络带宽、设备剩余电量、XR应用的帧率等。动作空间包括将任务在本地执行或卸载到边缘服务器。奖励函数综合考虑了时延合规性和电池寿命，例如，如果任务在规定时延内完成，则获得正奖励；如果超过时延，则获得负奖励；电池消耗也对应负奖励。通过调整奖励函数中各项的权重，可以控制时延和能耗之间的权衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在稳定的网络条件下，该方法可以将设备的电池寿命延长高达163%，同时保持超过90%的运动到光子时延合规性。即使在网络带宽受限的情况下，时延合规性也能保持在80%以上。与传统的本地执行策略相比，该方法在时延和能耗之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于各种时延敏感的边缘计算场景，例如AR/VR游戏、远程医疗、工业自动化等。通过智能地管理计算资源的分配，可以提升用户体验，延长设备续航时间，并降低运营成本。未来，该技术有望与5G/6G等通信技术相结合，为用户提供更加沉浸式和高质量的XR体验。

📄 摘要（原文）

Immersive extended reality (XR) applications introduce latency-critical workloads that must satisfy stringent real-time responsiveness while operating on energy- and battery-constrained devices, making execution placement between end devices and nearby edge servers a fundamental systems challenge. Existing approaches to adaptive execution and computation offloading typically optimize average performance metrics and do not fully capture the sustained interaction between real-time latency requirements and device battery lifetime in closed-loop XR workloads. In this paper, we present a battery-aware execution management framework for edge-assisted XR systems that jointly considers execution placement, workload quality, latency requirements, and battery dynamics. We design an online decision mechanism based on a lightweight deep reinforcement learning policy that continuously adapts execution decisions under dynamic network conditions while maintaining high motion-to-photon latency compliance. Experimental results show that the proposed approach extends the projected device battery lifetime by up to 163% compared to latency-optimal local execution while maintaining over 90% motion-to-photon latency compliance under stable network conditions. Such compliance does not fall below 80% even under significantly limited network bandwidth availability, thereby demonstrating the effectiveness of explicitly managing latency-energy trade-offs in immersive XR systems.

Deep Reinforcement Learning-driven Edge Offloading for Latency-constrained XR pipelines

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理