Detecting Activities of Daily Living in Egocentric Video to Contextualize Hand Use at Home in Outpatient Neurorehabilitation Settings
作者: Adesh Kadambi, José Zariffa
分类: cs.CV, cs.HC
发布日期: 2024-12-14
备注: To be submitted to IEEE Transactions on Neural Systems and Rehabilitation Engineering. 11 pages, 3 figures, 2 tables
💡 一句话要点
提出基于对象交互的活动识别方法,用于神经康复中理解患者居家手部使用情况。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 第一视角视频 活动识别 对象交互 神经康复 手部功能 日常生活活动 机器学习
📋 核心要点
- 现有方法难以有效理解神经康复患者居家手部使用情况,缺乏细致的活动和对象交互信息。
- 该研究提出一种以对象为中心的活动识别方法,关注患者与对象的交互,而非动作本身。
- 实验表明,该方法在真实康复场景中表现稳健,对不同损伤程度和环境具有适应性。
📝 摘要(中文)
本文提出了一种基于可穿戴第一视角相机和机器学习的方法,旨在为临床医生提供对中风和脊髓损伤(SCI)患者居家手部使用情况的更细致理解。该方法侧重于患者与哪些对象交互,而非他们的动作方式,从而有效地识别日常生活活动(ADL)。研究人员在一个复杂的真实世界数据集中评估了该模型,该数据集包含来自16名手功能受损参与者的2261分钟的第一视角视频。通过利用预训练的对象检测和手-对象交互模型,该系统在不同的损伤程度和环境中实现了稳健的性能。最佳模型实现了0.78 +/- 0.12的平均加权F1分数,并使用留一法交叉验证,对所有参与者保持了>0.5的F1分数。定性分析表明,该方法生成了关于功能性对象使用的临床可解释信息,同时对患者特定的运动变化具有鲁棒性,使其特别适用于以上肢损伤为主的康复环境。
🔬 方法详解
问题定义:该论文旨在解决神经康复领域中,如何利用第一视角视频准确识别患者居家日常生活活动(ADL)的问题。现有方法通常侧重于动作识别,容易受到患者个体运动差异的影响,且难以提供临床医生所需的关于对象交互的细粒度信息。
核心思路:论文的核心思路是采用一种以对象为中心的活动识别方法。该方法不再直接分析患者的运动模式,而是关注患者与哪些对象进行交互。通过识别对象和手-对象交互,可以更准确、更鲁棒地推断患者正在进行的活动。这种方法能够更好地适应患者个体差异,并提供更具临床意义的信息。
技术框架:该系统的整体框架包括以下几个主要阶段:1) 使用可穿戴第一视角相机采集患者居家活动的视频数据;2) 利用预训练的对象检测模型识别视频中的对象;3) 使用手-对象交互模型识别患者的手与对象之间的交互关系;4) 基于对象和手-对象交互信息,使用机器学习模型(例如,分类器)识别患者正在进行的ADL。
关键创新:该论文的关键创新在于将对象交互作为识别ADL的主要线索。与传统的基于动作识别的方法相比,该方法对患者的运动变化更加鲁棒,并且能够提供更具临床意义的对象使用信息。此外,利用预训练模型可以减少对大量标注数据的依赖,提高模型的泛化能力。
关键设计:论文中使用了预训练的对象检测模型和手-对象交互模型。具体使用的模型类型和参数设置在论文中可能有所描述(未知)。分类器(未知)的选择和训练也是关键设计的一部分。损失函数(未知)的选择和优化对于模型的性能至关重要。
📊 实验亮点
该研究在包含2261分钟第一视角视频的真实世界数据集上进行了评估,数据集来自16名手功能受损的参与者。最佳模型实现了0.78 +/- 0.12的平均加权F1分数。通过留一法交叉验证,该模型对所有参与者保持了>0.5的F1分数,表明其具有良好的泛化能力和鲁棒性。定性分析表明,该方法能够生成临床可解释的对象使用信息。
🎯 应用场景
该研究成果可应用于神经康复领域,为临床医生提供患者居家手部使用情况的客观评估。通过分析患者的ADL,医生可以更好地了解患者的功能障碍,制定个性化的康复计划,并评估康复效果。此外,该技术还可用于智能家居、老年人照护等领域,提高生活质量。
📄 摘要(原文)
Wearable egocentric cameras and machine learning have the potential to provide clinicians with a more nuanced understanding of patient hand use at home after stroke and spinal cord injury (SCI). However, they require detailed contextual information (i.e., activities and object interactions) to effectively interpret metrics and meaningfully guide therapy planning. We demonstrate that an object-centric approach, focusing on what objects patients interact with rather than how they move, can effectively recognize Activities of Daily Living (ADL) in real-world rehabilitation settings. We evaluated our models on a complex dataset collected in the wild comprising 2261 minutes of egocentric video from 16 participants with impaired hand function. By leveraging pre-trained object detection and hand-object interaction models, our system achieves robust performance across different impairment levels and environments, with our best model achieving a mean weighted F1-score of 0.78 +/- 0.12 and maintaining an F1-score > 0.5 for all participants using leave-one-subject-out cross validation. Through qualitative analysis, we observe that this approach generates clinically interpretable information about functional object use while being robust to patient-specific movement variations, making it particularly suitable for rehabilitation contexts with prevalent upper limb impairment.