Edge-Efficient Two-Stream Multimodal Architecture for Non-Intrusive Bathroom Fall Detection

📄 arXiv: 2603.17069 📥 PDF

作者: Haitian Wang, Yiren Wang, Xinyu Wang, Sheldon Fung, Atif Mansoor

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出一种边缘高效的双流多模态架构,用于非侵入式浴室跌倒检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跌倒检测 多模态融合 毫米波雷达 振动传感器 边缘计算 双流网络 Mamba Griffin

📋 核心要点

  1. 现有浴室跌倒检测方法对运动和冲击的耦合关系建模不足,易受时间漂移和物体掉落等因素干扰,且边缘设备上的延迟和能耗较高。
  2. 提出一种双流架构,分别使用Motion--Mamba和Impact--Griffin分支处理雷达信号和地面振动,并通过交叉条件融合对齐运动和冲击信息。
  3. 实验结果表明,该模型在准确率、召回率、延迟和能耗方面均优于现有方法,在Raspberry Pi 4B上实现了实时高效的跌倒检测。

📝 摘要(中文)

在潮湿的浴室环境中跌倒是独居老人面临的主要安全风险。现有的方法,如仅使用毫米波、仅使用振动,以及振动触发雷达激活、早期特征拼接和决策层分数融合等多模态方案,虽然可以实现保护隐私的非侵入式跌倒检测,但它们仍然将运动和冲击视为松散耦合的数据流,依赖于粗略的时间对齐和幅度阈值,并且没有明确地编码雷达观测到的倒地与地面冲击之间的因果关系,也未解决时间漂移、物体掉落混淆因素以及低功耗边缘设备的延迟和能量约束问题。为此,我们提出了一种双流架构,该架构使用Motion--Mamba分支编码雷达信号以获取长程运动模式,并使用Impact--Griffin分支处理地面振动,该分支强调冲击瞬态和跨轴耦合。交叉条件融合使用低秩双线性交互和一个Switch--MoE头来对齐运动和冲击token,并抑制物体掉落混淆因素。该模型保持了适合在Raspberry Pi 4B网关上实时执行的推理成本。我们构建了一个带有帧级注释的浴室跌倒检测基准数据集,其中包含超过3小时的同步毫米波雷达和三轴振动记录,涵盖了在流水下的八种场景,以及独立于主体的训练、验证和测试集。在测试集上,我们的模型达到了96.1%的准确率,94.8%的精确率,88.0%的召回率,91.1%的宏F1分数和0.968的AUC。与最强的基线相比,它将准确率提高了2.0个百分点,跌倒召回率提高了1.3个百分点,同时将延迟从35.9毫秒降低到15.8毫秒,并将Raspberry Pi 4B网关上每个2.56秒窗口的能量从14200 mJ降低到10750 mJ。

🔬 方法详解

问题定义:论文旨在解决在浴室环境中,使用非侵入式传感器(毫米波雷达和三轴振动传感器)进行准确、低延迟、低功耗的跌倒检测问题。现有方法通常将运动和冲击视为独立的数据流,依赖粗略的时间对齐,容易受到时间漂移、物体掉落等因素的干扰,并且在边缘设备上的计算开销较大。

核心思路:论文的核心思路是将毫米波雷达捕捉到的运动信息和振动传感器捕捉到的冲击信息进行有效融合,并显式地建模运动和冲击之间的因果关系。通过设计特定的网络结构和融合机制,抑制噪声干扰,提高检测精度,并降低计算复杂度,使其能够在低功耗边缘设备上实时运行。

技术框架:整体架构是一个双流网络,包含以下几个主要模块: 1. Motion--Mamba分支:处理毫米波雷达信号,用于捕捉长程运动模式。 2. Impact--Griffin分支:处理三轴振动信号,用于强调冲击瞬态和跨轴耦合。 3. 交叉条件融合模块:使用低秩双线性交互和一个Switch--MoE头,对齐运动和冲击token,并抑制物体掉落混淆因素。 4. 分类器:基于融合后的特征进行跌倒检测。

关键创新:论文的关键创新点在于: 1. 双流架构:针对运动和冲击两种模态的特点,设计了不同的网络分支,更好地提取各自的特征。 2. Motion--Mamba和Impact--Griffin分支:针对雷达信号和振动信号的特性,选择了合适的网络结构,提高了特征提取的效率。 3. 交叉条件融合:通过低秩双线性交互和Switch--MoE头,实现了运动和冲击信息的有效融合,并抑制了噪声干扰。

关键设计: 1. Motion--Mamba分支:使用了Mamba架构,擅长处理序列数据,捕捉长程依赖关系。 2. Impact--Griffin分支:使用了Griffin架构,强调冲击瞬态和跨轴耦合。 3. Switch--MoE头:用于动态地选择不同的专家网络,以适应不同的输入情况。 4. 低秩双线性交互:降低了计算复杂度,同时保持了较好的融合效果。 5. 损失函数:使用了交叉熵损失函数,用于训练分类器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在自建的浴室跌倒检测数据集上取得了显著的性能提升。在测试集上,准确率达到96.1%,精确率达到94.8%,召回率达到88.0%,宏F1分数达到91.1%,AUC达到0.968。与最强的基线相比,准确率提高了2.0个百分点,跌倒召回率提高了1.3个百分点,同时延迟从35.9毫秒降低到15.8毫秒,能耗从14200 mJ降低到10750 mJ(在Raspberry Pi 4B上)。

🎯 应用场景

该研究成果可应用于智能家居、养老院等场景,为独居老人提供非侵入式的安全保障。通过实时监测浴室内的跌倒事件,及时发出警报,降低事故风险,提高生活质量。未来,该技术还可以扩展到其他需要跌倒检测的场景,如医院、康复中心等。

📄 摘要(原文)

Falls in wet bathroom environments are a major safety risk for seniors living alone. Recent work has shown that mmWave-only, vibration-only, and existing multimodal schemes, such as vibration-triggered radar activation, early feature concatenation, and decision-level score fusion, can support privacy-preserving, non-intrusive fall detection. However, these designs still treat motion and impact as loosely coupled streams, depending on coarse temporal alignment and amplitude thresholds, and do not explicitly encode the causal link between radar-observed collapse and floor impact or address timing drift, object drop confounders, and latency and energy constraints on low-power edge devices. To this end, we propose a two-stream architecture that encodes radar signals with a Motion--Mamba branch for long-range motion patterns and processes floor vibration with an Impact--Griffin branch that emphasizes impact transients and cross-axis coupling. Cross-conditioned fusion uses low-rank bilinear interaction and a Switch--MoE head to align motion and impact tokens and suppress object-drop confounders. The model keeps inference cost suitable for real-time execution on a Raspberry Pi 4B gateway. We construct a bathroom fall detection benchmark dataset with frame-level annotations, comprising more than 3~h of synchronized mmWave radar and triaxial vibration recordings across eight scenarios under running water, together with subject-independent training, validation, and test splits. On the test split, our model attains 96.1% accuracy, 94.8% precision, 88.0% recall, a 91.1% macro F1 score, and an AUC of 0.968. Compared with the strongest baseline, it improves accuracy by 2.0 percentage points and fall recall by 1.3 percentage points, while reducing latency from 35.9 ms to 15.8 ms and lowering energy per 2.56 s window from 14200 mJ to 10750 mJ on the Raspberry Pi 4B gateway.