Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detection?

📄 arXiv: 2511.20716v1 📥 PDF

作者: Kun Guo, Yun Shen, Xijun Wang, Chaoqun You, Yun Rui, Tony Q. S. Quek

分类: cs.CV, eess.IV

发布日期: 2025-11-25


💡 一句话要点

针对移动边缘网络视频目标识别,提出基于深度强化学习的自适应跟踪与检测算法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 移动边缘计算 视频目标识别 深度强化学习 自适应算法 联邦学习

📋 核心要点

  1. 现有方法难以在移动边缘网络中平衡视频目标识别的精度、延迟和设备资源消耗。
  2. 提出LTED-Ada算法,利用深度强化学习自适应选择本地跟踪或边缘检测,优化长期性能。
  3. 实验表明,LTED-Ada在单设备和多设备场景下均优于现有方法,提升了泛化能力。

📝 摘要(中文)

在移动边缘网络中,快速准确的视频目标识别对算力受限的设备(如交通摄像头)仍然是一个挑战。移动边缘计算的最新进展使得将计算密集型的目标检测卸载到配备高精度神经网络的边缘服务器成为可能,而轻量级且快速的目标跟踪算法则在本地设备上运行。这种混合方法提供了一种有前景的解决方案,但也带来了一个新的挑战:决定何时执行边缘检测与本地跟踪。为了解决这个问题,我们针对单设备和多设备场景提出了两个长期优化问题,考虑了连续帧的时间相关性和移动边缘网络的动态条件。基于此,我们提出了LTED-Ada算法,这是一种基于深度强化学习的算法,可以根据帧速率以及识别精度和延迟要求自适应地选择本地跟踪和边缘检测。在多设备设置中,我们进一步使用联邦学习增强LTED-Ada,以实现跨设备的协作策略训练,从而提高其对未见帧速率和性能要求的泛化能力。最后,我们使用多个Raspberry Pi 4B设备和一台个人计算机作为边缘服务器进行了广泛的硬件在环实验,证明了LTED-Ada的优越性。

🔬 方法详解

问题定义:论文旨在解决移动边缘网络中视频目标识别的资源分配问题。现有方法要么完全依赖本地跟踪,速度快但精度低,容易漂移;要么完全依赖边缘检测,精度高但延迟大,消耗网络资源。如何在精度、延迟和资源消耗之间取得平衡是一个挑战。

核心思路:论文的核心思路是利用深度强化学习(DRL)训练一个策略,该策略能够根据当前帧的特征、网络状态和性能要求,自适应地选择在本地进行目标跟踪还是将帧卸载到边缘服务器进行目标检测。通过这种方式,可以动态地调整计算负载,在满足精度和延迟要求的同时,最大限度地减少资源消耗。

技术框架:整体框架包含三个主要部分:本地设备、边缘服务器和DRL智能体。本地设备负责运行轻量级目标跟踪算法,并收集帧特征和网络状态信息。边缘服务器运行高精度目标检测模型。DRL智能体根据本地设备收集的信息,决定是否将当前帧卸载到边缘服务器进行检测。在多设备场景下,使用联邦学习进行策略训练,使智能体能够学习到更通用的策略。

关键创新:论文的关键创新在于提出了LTED-Ada算法,该算法使用DRL自适应地选择本地跟踪或边缘检测。与传统的静态策略相比,LTED-Ada能够根据动态的网络条件和性能要求进行调整,从而实现更好的性能。此外,使用联邦学习进行多设备协作训练,提高了算法的泛化能力。

关键设计:DRL智能体使用深度Q网络(DQN)作为策略网络。状态空间包括帧速率、跟踪置信度、网络延迟等信息。动作空间包括本地跟踪和边缘检测两种选择。奖励函数的设计考虑了识别精度、延迟和资源消耗。在联邦学习中,每个设备在本地训练DQN,然后将模型参数上传到中心服务器进行聚合。聚合后的模型参数再分发给各个设备,进行下一轮训练。

📊 实验亮点

实验结果表明,LTED-Ada算法在单设备和多设备场景下均优于现有方法。在单设备场景下,LTED-Ada在满足精度要求的同时,显著降低了延迟和资源消耗。在多设备场景下,通过联邦学习进行协作训练,LTED-Ada的泛化能力得到了显著提升,能够适应不同的帧速率和性能要求。具体数据未知,但论文强调了LTED-Ada的优越性。

🎯 应用场景

该研究成果可应用于智能交通、智能安防、工业自动化等领域。例如,在智能交通中,可以利用该算法对交通摄像头采集的视频进行实时分析,识别车辆、行人等目标,并根据交通状况进行智能调度。在智能安防中,可以用于监控视频的异常行为检测和目标跟踪,提高安防效率。此外,该方法还可以扩展到其他需要实时视频分析的边缘计算场景。

📄 摘要(原文)

Fast and accurate video object recognition, which relies on frame-by-frame video analytics, remains a challenge for resource-constrained devices such as traffic cameras. Recent advances in mobile edge computing have made it possible to offload computation-intensive object detection to edge servers equipped with high-accuracy neural networks, while lightweight and fast object tracking algorithms run locally on devices. This hybrid approach offers a promising solution but introduces a new challenge: deciding when to perform edge detection versus local tracking. To address this, we formulate two long-term optimization problems for both single-device and multi-device scenarios, taking into account the temporal correlation of consecutive frames and the dynamic conditions of mobile edge networks. Based on the formulation, we propose the LTED-Ada in single-device setting, a deep reinforcement learning-based algorithm that adaptively selects between local tracking and edge detection, according to the frame rate as well as recognition accuracy and delay requirement. In multi-device setting, we further enhance LTED-Ada using federated learning to enable collaborative policy training across devices, thereby improving its generalization to unseen frame rates and performance requirements. Finally, we conduct extensive hardware-in-the-loop experiments using multiple Raspberry Pi 4B devices and a personal computer as the edge server, demonstrating the superiority of LTED-Ada.