MESEN: Exploit Multimodal Data to Design Unimodal Human Activity Recognition with Few Labels
作者: Lilin Xu, Chaojie Gu, Rui Tan, Shibo He, Jiming Chen
分类: cs.LG
发布日期: 2024-04-02
备注: Accepted to the 21th ACM Conference on Embedded Networked Sensor Systems (SenSys 2023)
💡 一句话要点
提出MESEN以解决人类活动识别中的标签稀缺问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人类活动识别 多模态数据 单模态学习 特征提取 跨模态学习 伪分类 深度学习
📋 核心要点
- 现有的人类活动识别方法面临模态限制和标签稀缺的问题,导致实际应用效果不佳。
- MESEN框架通过利用未标记的多模态数据,在单模态HAR的设计和部署阶段进行增强,采用多任务机制进行特征提取。
- 在八个公共多模态数据集上的实验结果显示,MESEN在单模态HAR性能上显著优于现有的最先进方法。
📝 摘要(中文)
人类活动识别(HAR)是多种新兴应用的重要功能,但通常面临模态限制和标签稀缺的挑战,导致当前解决方案与实际需求之间存在差距。本文提出MESEN,一个多模态增强的单模态感知框架,利用HAR模型设计阶段可用的未标记多模态数据,在部署阶段增强单模态HAR。通过对监督多模态融合对单模态特征提取影响的研究,MESEN在多模态辅助预训练阶段设计了多任务机制。该机制结合了跨模态特征对比学习和多模态伪分类对齐,MESEN利用未标记的多模态数据为每种模态提取有效的单模态特征。随后,MESEN能够在仅有少量标记样本的情况下适应下游单模态HAR。对八个公共多模态数据集的广泛实验表明,MESEN在利用多模态数据增强单模态HAR方面显著超越了现有的最先进基线。
🔬 方法详解
问题定义:本文旨在解决人类活动识别中的标签稀缺和模态限制问题。现有方法在处理多模态数据时,往往无法有效利用未标记数据,导致单模态特征提取效果不理想。
核心思路:MESEN框架通过引入多模态辅助预训练阶段,利用未标记的多模态数据来增强单模态特征提取。通过跨模态特征对比学习和多模态伪分类对齐,MESEN能够有效提取每种模态的特征。
技术框架:MESEN的整体架构包括两个主要阶段:多模态辅助预训练阶段和单模态HAR适应阶段。在预训练阶段,模型通过多任务机制进行特征提取;在适应阶段,模型利用少量标记样本进行下游任务的训练。
关键创新:MESEN的核心创新在于其多任务机制和对比学习方法的结合,使得未标记的多模态数据能够有效转化为单模态特征,显著提升了单模态HAR的性能。与传统方法相比,MESEN能够更好地利用多模态数据。
关键设计:在模型设计中,MESEN采用了特定的损失函数来平衡多任务学习的目标,同时在网络结构上引入了对比学习模块,以增强特征的区分性和鲁棒性。
🖼️ 关键图片
📊 实验亮点
在八个公共多模态数据集上的实验结果表明,MESEN在单模态HAR任务中相较于最先进的基线方法,性能提升幅度达到XX%,显示出其在实际应用中的有效性和优势。
🎯 应用场景
该研究的潜在应用领域包括智能监控、健康监测和人机交互等场景。通过提高人类活动识别的准确性和效率,MESEN能够在实际应用中提供更可靠的支持,推动相关技术的发展和普及。
📄 摘要(原文)
Human activity recognition (HAR) will be an essential function of various emerging applications. However, HAR typically encounters challenges related to modality limitations and label scarcity, leading to an application gap between current solutions and real-world requirements. In this work, we propose MESEN, a multimodal-empowered unimodal sensing framework, to utilize unlabeled multimodal data available during the HAR model design phase for unimodal HAR enhancement during the deployment phase. From a study on the impact of supervised multimodal fusion on unimodal feature extraction, MESEN is designed to feature a multi-task mechanism during the multimodal-aided pre-training stage. With the proposed mechanism integrating cross-modal feature contrastive learning and multimodal pseudo-classification aligning, MESEN exploits unlabeled multimodal data to extract effective unimodal features for each modality. Subsequently, MESEN can adapt to downstream unimodal HAR with only a few labeled samples. Extensive experiments on eight public multimodal datasets demonstrate that MESEN achieves significant performance improvements over state-of-the-art baselines in enhancing unimodal HAR by exploiting multimodal data.