GenHAR: Generalizing Cross-domain Human Activity Recognition for Last-mile Delivery
作者: Zhiqing Hong, Zelong Li, Xiubin Fan, Guang Yang, Baoshen Guo, Haotian Wang, Tian He, Desheng Zhang
分类: cs.CV
发布日期: 2026-05-21
🔗 代码/项目: GITHUB
💡 一句话要点
GenHAR:面向末端配送的跨域人体活动识别泛化框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体活动识别 跨域泛化 领域自适应 传感器数据 Transformer
📋 核心要点
- 现有HAR方法在跨域场景下泛化能力不足,源于不同传感器数据域的分布偏移。
- GenHAR通过学习领域不变的传感器表示,并结合tokenization和高效注意力机制来缓解领域差距。
- 实验结果表明,GenHAR在准确率上优于现有方法9.97%,并显著降低了计算复杂度,已在实际物流场景中部署。
📝 摘要(中文)
人体活动识别(HAR)在智能医疗和智能制造等领域展现了显著的有效性。然而,HAR面临的主要挑战是不同传感器数据域之间的分布偏移,这通常会导致在实际应用中性能下降。为了解决这个问题,本文提出了一种新的框架GenHAR,旨在通过学习领域不变的传感器表示来缓解领域差距。GenHAR旨在仅使用源域的数据来增强HAR在目标域上的泛化能力。GenHAR的关键创新在于两个方面。首先,GenHAR对传感器数据进行tokenize,并学习频率传感器通道维度之间的相关性,以提高HAR模型的鲁棒性。其次,GenHAR通过选择性掩码和高效的注意力机制来提高效率。我们通过在真实世界的人体活动数据集上将其与最先进的HAR方法进行比较,对GenHAR进行了系统的分析。结果表明,GenHAR的准确率优于最先进的方法9.97%,并将浮点运算次数减少了6.4倍。此外,我们在一家领先的物流公司在4个城市部署了GenHAR,并检测到21.5亿个实时活动。我们的代码已发布在:https://github.com/Sensor-FoundationModel/GenHAR。
🔬 方法详解
问题定义:人体活动识别(HAR)在实际应用中面临着跨域泛化的挑战。不同场景下,传感器类型、放置位置、用户习惯等因素导致数据分布存在差异,使得在源域训练的模型在目标域性能显著下降。现有方法难以有效提取领域不变的特征,导致模型鲁棒性不足。
核心思路:GenHAR的核心思路是学习领域不变的传感器表示,从而减小源域和目标域之间的差距。通过对传感器数据进行tokenization,并学习频率传感器通道维度之间的相关性,增强模型对不同领域数据的适应性。同时,采用选择性掩码和高效注意力机制,提高模型的效率和泛化能力。
技术框架:GenHAR框架主要包含以下几个阶段:1) 数据预处理:对原始传感器数据进行清洗和标准化。2) Tokenization:将传感器数据转换为token序列,以便模型学习通道间的相关性。3) 特征提取:利用Transformer结构提取领域不变的特征表示。4) 活动分类:使用分类器对提取的特征进行活动识别。5) 领域对抗训练(可选):通过对抗训练进一步减小领域差异。
关键创新:GenHAR的关键创新在于:1) 提出了基于tokenization的传感器数据表示方法,能够有效捕捉传感器通道间的相关性,提高模型鲁棒性。2) 引入选择性掩码和高效注意力机制,降低计算复杂度,提高模型效率。3) 设计了领域不变特征学习策略,增强模型在不同领域的泛化能力。
关键设计:GenHAR使用Transformer作为特征提取器,其中注意力机制采用多头注意力,头数为8。选择性掩码的比例为0.2,即随机mask掉20%的token。损失函数采用交叉熵损失,优化器采用AdamW,学习率为0.001,batch size为64。领域对抗训练采用梯度反转层,对抗损失的权重为0.1。
🖼️ 关键图片
📊 实验亮点
GenHAR在真实世界的人体活动数据集上取得了显著的性能提升,相较于最先进的方法,准确率提高了9.97%,同时将浮点运算次数减少了6.4倍。在实际物流公司的部署中,GenHAR成功检测到21.5亿个实时活动,验证了其在实际应用中的有效性和可靠性。
🎯 应用场景
GenHAR在末端配送场景中具有广泛的应用前景,例如自动识别快递员的搬运、行走、上下楼梯等活动,从而优化配送路线、提高工作效率、保障安全。此外,该技术还可以应用于智能家居、智能医疗等领域,实现对用户行为的实时监测和分析,提供个性化的服务。
📄 摘要(原文)
Human Activity Recognition (HAR) has shown remarkable effectiveness in various applications, such as smart healthcare and intelligent manufacturing. However, a major challenge faced by HAR is the distribution shift across different sensor data domains, which often leads to decreased performance when deployed for real-world applications. To address this issue, this paper introduces GenHAR, a novel framework designed to mitigate the domain gap by learning domain-invariant sensor representations. GenHAR aims to enhance the generalization capabilities of HAR on target domains purely with data from the source domain. The key novelty of GenHAR lies in two aspects. Firstly, GenHAR tokenizes sensor data and learns correlations among frequency sensor channel dimensions to improve the robustness of HAR models. Secondly, GenHAR improves the efficiency via selective masking and an efficient attention mechanism. We conduct a systematic analysis of GenHAR by comparing it with state-of-the-art HAR methods on real-world human activity datasets. Results show that GenHAR outperforms state-of-the-art methods by 9.97% in accuracy, and reduces Floating Point Operations by 6.4 times. Moreover, we deploy GenHAR at a leading logistics company in 4 cities, and have detected 2.15 billion real-time activities. We release our code at: https://github.com/Sensor-FoundationModel/GenHAR.