Task-Oriented Communication for Human Action Understanding via Edge-Cloud Co-Inference
作者: Jingyi Liu, Cheng Yuan, Lijun He, Jun Zhang, Jiawei Shao
分类: eess.SP, cs.CV
发布日期: 2026-05-08
备注: 12 pages, 6 figures
💡 一句话要点
提出面向任务的边缘-云协同通信框架TOAU,实现高效低延迟的人体动作理解
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 边缘计算 动作理解 任务导向通信 VQ-VAE 视觉语言模型 特征压缩 隐私保护
📋 核心要点
- 现有方法依赖原始视频传输,导致边缘设备带宽压力大、延迟高且存在隐私泄露风险。
- 提出TOAU框架,通过姿态估计与VQ-VAE将视频转化为极低比特的离散运动标记进行传输。
- 实验表明该方法将传输负载降至1%,延迟降至20%,并利用VLM实现高效的动作理解。
📝 摘要(中文)
随着智能感知的普及,边缘侧对人体动作理解的需求日益增长。传统方法依赖将海量视频数据从资源受限的边缘设备传输至云端,导致带宽消耗巨大、延迟高且存在隐私风险。为克服这些瓶颈,本文提出了一种面向任务的人体动作理解通信框架(TOAU)。该框架利用单目姿态估计器从原始视频中提取连续关节坐标,并通过向量量化变分自编码器(VQ-VAE)将其转换为离散运动标记。因此,网络仅需传输紧凑的码本索引序列(每帧低至9比特),有效避免了隐私泄露。在云端,轻量级投影器将这些运动标记与大型视觉语言模型(VLM)的嵌入空间对齐,并通过高效的指令微调范式进行训练。在三个基准测试上的评估表明,与基于视频编解码的方法相比,TOAU将传输负载降低至约1%,系统延迟降低至约20%,同时保持了相当的动作理解准确率。
🔬 方法详解
问题定义:论文旨在解决资源受限的边缘设备在进行复杂人体动作理解时,因传输原始视频数据而导致的带宽瓶颈、高延迟以及隐私保护不足的问题。
核心思路:采用“面向任务的通信”理念,将视频理解任务拆解为边缘端的特征提取与云端的语义推理。通过将连续的姿态信息离散化为紧凑的运动标记,实现极高压缩比的特征传输,仅保留任务相关的语义信息。
技术框架:系统分为边缘与云端两部分。边缘端包含单目姿态估计器(提取关节坐标)和VQ-VAE(将坐标序列量化为码本索引);云端包含轻量级投影器(Projector)和大型视觉语言模型(VLM),负责将接收到的标记映射并进行动作推理。
关键创新:引入了基于VQ-VAE的离散化表示学习,将高维视频流转化为极低带宽的符号序列;结合VLM的指令微调范式,实现了跨模态的语义对齐,在极低数据量下维持了高精度的动作理解能力。
关键设计:系统采用每帧仅9比特的极低码率传输;利用轻量级投影器作为桥梁,将离散的运动标记嵌入空间与VLM的预训练空间对齐,并采用高效的指令微调策略优化模型性能。
🖼️ 关键图片
📊 实验亮点
在三个主流动作理解基准测试中,TOAU表现优异。相比传统的视频编解码方案,该系统将传输负载大幅削减至原始数据的1%左右,系统总延迟降低至约20%。在显著降低资源消耗的同时,其动作理解准确率与基于原始视频的基线方法相当,证明了面向任务的特征压缩在边缘智能中的高效性。
🎯 应用场景
该研究适用于智慧安防、远程医疗监护、人机交互及体育运动分析等领域。在带宽受限的边缘计算场景下,TOAU能够以极低成本实现实时动作识别与分析,同时通过仅传输姿态信息而非原始图像,有效保护用户隐私,具有极高的工业应用价值。
📄 摘要(原文)
The expanding application of smart sensing has created a growing demand for the accurate understanding of human action at the network edge. Traditional approaches require massive video data to be transmitted from resource-constrained edge devices to powerful cloud servers, incurring prohibitive uplink bandwidth consumption and unacceptable latency while raising privacy concerns. To overcome these bottlenecks, we propose a task-oriented communication framework for human action understanding (TOAU) through edge-cloud collaboration. Our framework utilizes a monocular pose estimator to extract continuous joint coordinates from raw videos, followed by a vector quantized variational autoencoder (VQ-VAE) to convert these coordinates into discrete motion tokens. Consequently, only a compact sequence of codebook indices is transmitted over the network, consuming as few as 9 bits per frame and avoiding privacy leakages. At the cloud server, a lightweight projector aligns these motion tokens with the embedding space of a large vision-language model (VLM) to facilitate complex action understanding, which is trained with an efficient instruction tuning paradigm. Comprehensive evaluations on three benchmarks demonstrate that our TOAU system reduces the transmission payload to approximately 1\% and the system latency to around 20\% compared to video codec-based solutions, while delivering comparable action understanding accuracy.