Multimodal Physical Activity Forecasting in Free-Living Clinical Settings: Hunting Opportunities for Just-in-Time Interventions

📄 arXiv: 2410.09643v1 📥 PDF

作者: Abdullah Mamun, Krista S. Leonard, Megan E. Petrov, Matthew P. Buman, Hassan Ghasemzadeh

分类: cs.LG, cs.AI, eess.SP

发布日期: 2024-10-12

备注: 9 pages, 5 figures


💡 一句话要点

MoveSense:利用多模态LSTM预测患者活动行为,为即时干预提供机会

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 时间序列预测 LSTM网络 活动行为识别 个性化干预

📋 核心要点

  1. 现有方法难以在真实临床环境中准确预测患者的活动行为,限制了个性化干预的实施。
  2. MoveSense系统利用多模态LSTM网络,融合活动和参与度数据,提前预测患者的步数,为及时干预提供依据。
  3. 实验表明,多模态LSTM模型在预测精度上显著优于传统方法,为自适应行为干预提供了有效工具。

📝 摘要(中文)

本研究旨在开发一种名为MoveSense的生活方式干预系统,通过预测患者的活动行为,在真实的临床环境中实现早期和个性化的干预。我们进行了两项临床研究,分别招募了58名糖尿病前期退伍军人和60名阻塞性睡眠呼吸暂停患者,使用可穿戴设备收集多模态行为数据。我们开发了多模态长短期记忆(LSTM)网络模型,通过检查活动和参与度数据,能够提前24小时预测患者的步数。此外,我们设计了基于目标的预测模型,以预测一个人第二天的步数是否会超过某个阈值。实验结果表明,采用早期融合的多模态LSTM在糖尿病前期数据集上的平均绝对误差比线性回归和ARIMA分别低33%和37%。在睡眠数据集中,LSTM的性能也优于线性回归和ARIMA,分别提升了13%和32%。在基于目标的预测中,多模态预测模型在糖尿病前期数据集和睡眠数据集上分别达到了72%和79%的准确率。结论是,采用早期融合的多模态LSTM模型优于采用晚期融合的多模态LSTM模型和单模态LSTM模型,也优于ARIMA和线性回归模型。本研究解决了一个重要且具有挑战性的任务,即在不受控制的环境中进行时间序列预测。有效预测一个人的身体活动有助于设计自适应行为干预措施,以保持用户的参与度并坚持规定的日常活动。

🔬 方法详解

问题定义:论文旨在解决在自由生活临床环境中,如何准确预测患者的身体活动水平,以便及时进行个性化干预的问题。现有方法,如线性回归和ARIMA等,在处理复杂、非线性的多模态时间序列数据时表现不佳,难以准确预测患者的活动行为。

核心思路:论文的核心思路是利用多模态长短期记忆(LSTM)网络,融合来自不同模态(如活动和参与度)的数据,学习患者活动行为的复杂模式,从而实现更准确的预测。LSTM网络擅长处理时间序列数据,能够捕捉长期依赖关系,而多模态融合则可以提供更全面的信息,提高预测的准确性。

技术框架:MoveSense系统的整体框架包括数据采集、数据预处理、模型训练和预测四个主要阶段。首先,通过可穿戴设备收集患者的活动和参与度数据。然后,对数据进行预处理,包括数据清洗、缺失值处理和归一化等。接着,使用多模态LSTM网络对数据进行训练,学习患者活动行为的模式。最后,利用训练好的模型对患者未来的活动行为进行预测。

关键创新:论文的关键创新在于采用了多模态LSTM网络,并探索了不同的融合策略(早期融合和晚期融合)。与传统的单模态方法相比,多模态融合可以提供更全面的信息,提高预测的准确性。此外,论文还设计了基于目标的预测模型,以预测患者的步数是否会超过某个阈值,为个性化干预提供更直接的依据。

关键设计:论文采用了LSTM网络作为核心预测模型,并探索了早期融合和晚期融合两种多模态融合策略。在早期融合中,来自不同模态的数据在输入LSTM网络之前进行融合;而在晚期融合中,来自不同模态的数据分别输入LSTM网络,然后在输出层进行融合。论文还设计了基于目标的损失函数,以优化模型的预测性能。具体的网络结构和参数设置在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用早期融合的多模态LSTM模型在预测精度上显著优于传统的线性回归和ARIMA模型。在糖尿病前期数据集上,LSTM的平均绝对误差比线性回归和ARIMA分别低33%和37%。在睡眠数据集上,LSTM的性能也优于线性回归和ARIMA,分别提升了13%和32%。此外,多模态预测模型在基于目标的预测中也取得了较好的效果,在糖尿病前期数据集和睡眠数据集上分别达到了72%和79%的准确率。

🎯 应用场景

该研究成果可应用于慢性病管理、康复治疗、健康促进等领域。通过准确预测患者的活动行为,医生或健康管理人员可以及时提供个性化的干预措施,例如运动建议、饮食指导等,从而提高患者的依从性,改善治疗效果,并降低医疗成本。未来,该技术有望集成到智能健康设备或移动应用中,为用户提供个性化的健康管理服务。

📄 摘要(原文)

Objective: This research aims to develop a lifestyle intervention system, called MoveSense, that forecasts a patient's activity behavior to allow for early and personalized interventions in real-world clinical environments. Methods: We conducted two clinical studies involving 58 prediabetic veterans and 60 patients with obstructive sleep apnea to gather multimodal behavioral data using wearable devices. We develop multimodal long short-term memory (LSTM) network models, which are capable of forecasting the number of step counts of a patient up to 24 hours in advance by examining data from activity and engagement modalities. Furthermore, we design goal-based forecasting models to predict whether a person's next-day steps will be over a certain threshold. Results: Multimodal LSTM with early fusion achieves 33% and 37% lower mean absolute errors than linear regression and ARIMA respectively on the prediabetes dataset. LSTM also outperforms linear regression and ARIMA with a margin of 13% and 32% on the sleep dataset. Multimodal forecasting models also perform with 72% and 79% accuracy on the prediabetes dataset and sleep dataset respectively on goal-based forecasting. Conclusion: Our experiments conclude that multimodal LSTM models with early fusion are better than multimodal LSTM with late fusion and unimodal LSTM models and also than ARIMA and linear regression models. Significance: We address an important and challenging task of time-series forecasting in uncontrolled environments. Effective forecasting of a person's physical activity can aid in designing adaptive behavioral interventions to keep the user engaged and adherent to a prescribed routine.