Hierarchical and Multimodal Data for Daily Activity Understanding

📄 arXiv: 2504.17696v3 📥 PDF

作者: Ghazal Kaviani, Yavuz Yarici, Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib, Mashhour Solh, Ameya Patil

分类: cs.CV, cs.AI

发布日期: 2025-04-24 (更新: 2025-05-13)


💡 一句话要点

DARai:用于日常活动理解的分层多模态数据集,支持反事实活动分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 日常活动理解 多模态数据集 分层标注 反事实活动 传感器融合 时间定位 未来动作预测

📋 核心要点

  1. 现有日常活动理解数据集缺乏多模态、分层标注和反事实活动支持,限制了模型在复杂真实场景下的泛化能力。
  2. DARai数据集通过多传感器同步记录,并采用三层分级标注体系,捕捉人类活动的复杂性,同时支持反事实活动分析。
  3. 实验表明,DARai数据集能够有效支持单模态和多模态传感器融合,用于识别、时间定位和未来动作预测等任务,并揭示了单个传感器的局限性。

📝 摘要(中文)

DARai(发音为“Dahr-ree”)是一个多模态、分层标注的数据集,旨在理解真实场景下的人类活动。DARai包含50名参与者在10种不同环境下的连续脚本化和非脚本化记录,总计超过200小时的数据,来自20个传感器,包括多个摄像头视图、深度和雷达传感器、可穿戴惯性测量单元(IMU)、肌电图(EMG)、鞋垫压力传感器、生物监测传感器和眼动追踪器。为了捕捉人类活动的复杂性,DARai在三个层次上进行标注:(i)独立的高级活动(L1),(ii)活动之间共享的低级动作(L2),以及(iii)详细描述动作执行步骤的细粒度程序(L3)。数据集的标注和记录设计使得22.7%的L2动作在L1活动之间共享,14.2%的L3程序在L2动作之间共享。DARai的重叠性和非脚本化特性允许数据集中的反事实活动。使用各种机器学习模型的实验展示了DARai在揭示以人为本的应用中的重要挑战方面的价值。具体来说,我们针对所有分层标注级别进行了单模态和多模态传感器融合实验,用于识别、时间定位和未来动作预测。为了突出单个传感器的局限性,我们还进行了领域变体实验,这些实验由DARai的多传感器和反事实活动设计设置实现。

🔬 方法详解

问题定义:现有日常活动理解数据集通常缺乏足够的多样性、细粒度的标注以及对真实世界复杂性的建模能力。许多数据集要么是脚本化的,要么缺乏多模态信息,难以应对真实场景中人类行为的复杂性和不确定性。此外,现有数据集很少考虑反事实活动,即在特定上下文中不太可能发生的活动,这限制了模型对异常行为的识别和理解能力。

核心思路:DARai数据集的核心思路是通过多模态传感器融合和分层标注来捕捉人类活动的复杂性。通过同步记录来自多个传感器的数据,包括视觉、深度、惯性、生理等信息,DARai能够提供对人类活动的全面感知。分层标注体系则允许模型从不同粒度级别理解活动,从而提高模型的泛化能力和鲁棒性。此外,DARai数据集包含非脚本化的活动记录,以及反事实活动,这使得模型能够学习识别和处理异常行为。

技术框架:DARai数据集的构建流程包括以下几个主要阶段:1) 数据采集:使用20个传感器同步记录50名参与者在10种不同环境下的活动。2) 数据标注:采用三层分级标注体系,包括高级活动(L1)、低级动作(L2)和细粒度程序(L3)。3) 数据验证:对标注数据进行质量控制,确保标注的准确性和一致性。4) 数据发布:将数据集及其相关代码和文档发布到公开网站。

关键创新:DARai数据集的关键创新在于其多模态、分层标注和反事实活动支持。与其他数据集相比,DARai提供了更全面的传感器信息和更细粒度的标注,能够更好地捕捉人类活动的复杂性。此外,DARai数据集包含反事实活动,这使得模型能够学习识别和处理异常行为,从而提高模型的鲁棒性和安全性。

关键设计:DARai数据集的关键设计包括:1) 多传感器同步记录:确保不同传感器的数据在时间上对齐,从而实现有效的多模态融合。2) 分层标注体系:允许模型从不同粒度级别理解活动,从而提高模型的泛化能力。3) 反事实活动设计:通过在数据集中包含不太可能发生的活动,使得模型能够学习识别和处理异常行为。4) 数据集规模:超过200小时的数据量,为模型训练提供了充足的样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在DARai数据集上进行单模态和多模态传感器融合实验,验证了数据集的有效性。实验结果表明,多模态融合能够显著提高活动识别、时间定位和未来动作预测的准确率。此外,领域变体实验揭示了单个传感器的局限性,强调了多模态融合的重要性。具体性能数据未知,但实验结果表明DARai数据集能够有效支持各种人类活动理解任务。

🎯 应用场景

DARai数据集可广泛应用于人机交互、智能家居、医疗健康、安全监控等领域。例如,可以利用DARai数据集训练智能家居系统,使其能够理解用户的日常活动,并提供个性化的服务。在医疗健康领域,可以利用DARai数据集开发智能健康监测系统,用于监测老年人的活动,及时发现异常情况。在安全监控领域,可以利用DARai数据集训练异常行为检测模型,用于识别潜在的安全威胁。

📄 摘要(原文)

Daily Activity Recordings for Artificial Intelligence (DARai, pronounced "Dahr-ree") is a multimodal, hierarchically annotated dataset constructed to understand human activities in real-world settings. DARai consists of continuous scripted and unscripted recordings of 50 participants in 10 different environments, totaling over 200 hours of data from 20 sensors including multiple camera views, depth and radar sensors, wearable inertial measurement units (IMUs), electromyography (EMG), insole pressure sensors, biomonitor sensors, and gaze tracker. To capture the complexity in human activities, DARai is annotated at three levels of hierarchy: (i) high-level activities (L1) that are independent tasks, (ii) lower-level actions (L2) that are patterns shared between activities, and (iii) fine-grained procedures (L3) that detail the exact execution steps for actions. The dataset annotations and recordings are designed so that 22.7% of L2 actions are shared between L1 activities and 14.2% of L3 procedures are shared between L2 actions. The overlap and unscripted nature of DARai allows counterfactual activities in the dataset. Experiments with various machine learning models showcase the value of DARai in uncovering important challenges in human-centered applications. Specifically, we conduct unimodal and multimodal sensor fusion experiments for recognition, temporal localization, and future action anticipation across all hierarchical annotation levels. To highlight the limitations of individual sensors, we also conduct domain-variant experiments that are enabled by DARai's multi-sensor and counterfactual activity design setup. The code, documentation, and dataset are available at the dedicated DARai website: https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial-intelligence-and-machine-learning/