XRF V2: A Dataset for Action Summarization with Wi-Fi Signals, and IMUs in Phones, Watches, Earbuds, and Glasses

📄 arXiv: 2501.19034v2 📥 PDF

作者: Bo Lan, Pei Li, Jiaxi Yin, Yunpeng Song, Ge Wang, Han Ding, Jinsong Han, Fei Wang

分类: cs.CV

发布日期: 2025-01-31 (更新: 2025-07-16)

备注: accepted by ACM IMWUT/UBICOMP 2025

DOI: 10.1145/3749521

🔗 代码/项目: GITHUB


💡 一句话要点

提出XRF V2数据集和XRFMamba网络,用于Wi-Fi和IMU信号驱动的动作总结

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动作识别 动作总结 Wi-Fi信号 IMU传感器 多模态融合 时间动作定位 Mamba架构

📋 核心要点

  1. 现有动作识别方法在利用Wi-Fi和IMU信号进行连续动作识别和总结方面存在不足,缺乏有效的数据集和模型。
  2. 论文提出XRF V2数据集,包含多模态传感器数据,并设计XRFMamba网络捕捉长期依赖,解决动作定位和总结问题。
  3. 实验表明,XRFMamba在动作定位任务上优于现有方法,并提出了新的评估指标RMC来评估动作总结性能。

📝 摘要(中文)

本文提出了一个新的数据集XRF V2,用于室内日常活动的 temporal action localization (TAL) 和动作总结。XRF V2整合了来自Wi-Fi信号、IMU传感器(智能手机、智能手表、耳机和智能眼镜)以及同步视频记录的多模态数据,提供了来自16名志愿者在三种不同环境下的室内活动数据。为了解决TAL和动作总结问题,我们提出了XRFMamba神经网络,它擅长捕捉未修剪的感官序列中的长期依赖关系,并实现了最佳性能,在mAP@avg上达到了78.74的平均值,优于最近的WiFiTAD 5.49个点,同时减少了35%的参数。在动作总结方面,我们引入了一种新的指标,即响应意义一致性(RMC),以评估动作总结性能,并实现了0.802的平均响应意义一致性(mRMC)。我们认为XRF V2是推进人体动作定位、动作预测、姿态估计、多模态基础模型预训练、合成数据生成等领域研究的宝贵资源。数据和代码可在https://github.com/aiotgroup/XRFV2获取。

🔬 方法详解

问题定义:论文旨在解决利用Wi-Fi和IMU信号进行室内环境下的动作定位和动作总结问题。现有方法在处理连续、未修剪的感官数据时,难以捕捉长期依赖关系,并且缺乏针对动作总结任务的有效评估指标。此外,公开可用的数据集通常缺乏多模态数据,限制了模型性能的提升。

核心思路:论文的核心思路是构建一个包含多模态传感器数据(Wi-Fi、IMU、视频)的大规模数据集,并设计一个能够有效捕捉长期依赖关系的神经网络模型。通过多模态数据的融合,模型可以更准确地理解人类行为。同时,引入新的评估指标来更全面地评估动作总结的性能。

技术框架:整体框架包括数据采集、数据预处理、模型训练和评估四个主要阶段。数据采集阶段使用多种传感器(智能手机、智能手表、耳机、智能眼镜)同步记录数据。数据预处理阶段对数据进行清洗、同步和特征提取。模型训练阶段使用XRFMamba网络进行训练,并使用交叉熵损失函数进行优化。评估阶段使用mAP和新提出的RMC指标评估模型性能。

关键创新:论文的关键创新点包括:1) 构建了包含多模态传感器数据的XRF V2数据集,为相关研究提供了宝贵资源;2) 提出了XRFMamba神经网络,该网络基于Mamba架构,能够有效捕捉长期依赖关系,并在动作定位任务上取得了显著提升;3) 引入了新的评估指标RMC,用于更全面地评估动作总结的性能。

关键设计:XRFMamba网络基于Mamba架构,采用了选择性状态空间模型(Selective State Space Model, S6)。该模型通过选择性地关注输入序列中的重要信息,从而有效地捕捉长期依赖关系。在训练过程中,使用了交叉熵损失函数来优化模型参数。RMC指标通过计算模型生成的摘要与真实摘要之间的语义一致性来评估动作总结的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

XRFMamba在Temporal Action Localization任务上取得了显著的性能提升,平均mAP达到78.74,超过WiFiTAD 5.49个点,同时减少了35%的参数。此外,论文还提出了新的评估指标RMC,并在动作总结任务上取得了0.802的平均mRMC。

🎯 应用场景

该研究成果可应用于智能家居、健康监测、人机交互等领域。例如,智能家居系统可以利用该技术识别用户的日常活动,并自动调节家居设备。健康监测系统可以利用该技术监测用户的运动状态,并提供个性化的健康建议。人机交互系统可以利用该技术理解用户的意图,并提供更自然、更智能的交互体验。

📄 摘要(原文)

Human Action Recognition (HAR) plays a crucial role in applications such as health monitoring, smart home automation, and human-computer interaction. While HAR has been extensively studied, action summarization using Wi-Fi and IMU signals in smart-home environments , which involves identifying and summarizing continuous actions, remains an emerging task. This paper introduces the novel XRF V2 dataset, designed for indoor daily activity Temporal Action Localization (TAL) and action summarization. XRF V2 integrates multimodal data from Wi-Fi signals, IMU sensors (smartphones, smartwatches, headphones, and smart glasses), and synchronized video recordings, offering a diverse collection of indoor activities from 16 volunteers across three distinct environments. To tackle TAL and action summarization, we propose the XRFMamba neural network, which excels at capturing long-term dependencies in untrimmed sensory sequences and achieves the best performance with an average mAP of 78.74, outperforming the recent WiFiTAD by 5.49 points in mAP@avg while using 35% fewer parameters. In action summarization, we introduce a new metric, Response Meaning Consistency (RMC), to evaluate action summarization performance. And it achieves an average Response Meaning Consistency (mRMC) of 0.802. We envision XRF V2 as a valuable resource for advancing research in human action localization, action forecasting, pose estimation, multimodal foundation models pre-training, synthetic data generation, and more. The data and code are available at https://github.com/aiotgroup/XRFV2.