A Large-Scale Multimodal Dataset and Benchmarks for Human Activity Scene Understanding and Reasoning

📄 arXiv: 2512.07136v1 📥 PDF

作者: Siyang Jiang, Mu Yuan, Xiang Ji, Bufang Yang, Zeyu Liu, Lilin Xu, Yang Li, Yuting He, Liran Dong, Wenrui Lu, Zhenyu Yan, Xiaofan Jiang, Wei Gao, Hongkai Chen, Guoliang Xing

分类: cs.CV, cs.AI

发布日期: 2025-12-08

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

提出CUHK-X多模态数据集,用于人体活动场景理解与推理,并构建基准测试。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 人体活动识别 场景理解 大型语言模型 数据集 基准测试 动作推理

📋 核心要点

  1. 现有HAR数据集缺乏细粒度标注,难以支持人体动作理解和推理任务,限制了大型语言模型在非RGB模态上的应用。
  2. 提出CUHK-X数据集,包含多模态数据和文本描述,并设计基于提示的场景生成方法,提升文本描述的逻辑和时空一致性。
  3. CUHK-X数据集包含三个基准测试和六个评估任务,实验结果表明,该数据集为多模态人体活动分析提供了有效的数据支持。

📝 摘要(中文)

多模态人体动作识别(HAR)利用互补传感器进行活动分类。除了识别之外,大型语言模型(LLM)的最新进展实现了详细描述和因果推理,从而推动了新任务:人体动作理解(HAU)和人体动作推理(HARn)。然而,由于缺乏大规模的数据-文本资源,大多数LLM,特别是大型视觉语言模型(LVLM),在处理深度、IMU和毫米波等非RGB模态时面临挑战。现有的HAR数据集主要提供粗略的数据标签注释,不足以捕捉HAU和HARn所需的细粒度动作动态。我们考虑两种真值对类型:(1)数据标签(离散类别)和(2)数据文本描述(文本描述)。简单地从标签生成文本描述通常缺乏逻辑和时空一致性。我们引入CUHK-X,这是一个用于HAR、HAU和HARn的大规模多模态数据集和基准测试套件。CUHK-X包含58,445个样本,涵盖30名参与者在两个室内环境中执行的40个动作。为了提高文本描述的一致性,我们提出了一种基于提示的场景创建方法,该方法利用LLM生成逻辑上连接的活动序列,然后进行人工验证。CUHK-X包括三个基准测试,包含六个评估任务。实验报告的平均准确率分别为76.52%(HAR)、40.76%(HAU)和70.25%(HARn)。CUHK-X旨在使社区能够应用和开发数据密集型学习方法,以实现鲁棒的多模态人体活动分析。

🔬 方法详解

问题定义:现有的人体活动识别数据集主要关注动作分类,缺乏对动作的细粒度理解和推理能力。同时,现有数据集的标注信息不足,难以支持大型语言模型在多模态数据上的训练,尤其是在深度、IMU等非RGB模态上。此外,直接从标签生成文本描述的方法缺乏逻辑和时空一致性,影响了模型的性能。

核心思路:为了解决上述问题,论文提出了CUHK-X数据集,该数据集包含多模态数据和文本描述,并设计了一种基于提示的场景生成方法,以提高文本描述的质量。核心思路是利用大型语言模型生成逻辑上连贯的活动序列,然后通过人工验证来保证文本描述的准确性和一致性。

技术框架:CUHK-X数据集的构建流程主要包括以下几个阶段:1) 数据采集:收集多模态数据,包括RGB图像、深度图像、IMU数据和毫米波雷达数据;2) 场景生成:利用大型语言模型生成活动序列,并进行人工验证;3) 数据标注:对采集到的数据进行标注,包括动作类别和文本描述;4) 基准测试构建:构建HAR、HAU和HARn三个基准测试,并设计相应的评估任务。

关键创新:论文的关键创新在于提出了基于提示的场景生成方法,该方法能够有效地提高文本描述的逻辑和时空一致性。与直接从标签生成文本描述的方法相比,该方法能够生成更加自然和流畅的文本描述,从而提高模型的性能。

关键设计:在场景生成阶段,论文使用了大型语言模型来生成活动序列。具体来说,论文首先定义了一组提示,然后将这些提示输入到大型语言模型中,从而生成活动序列。为了保证生成活动序列的质量,论文还进行了人工验证,对生成的活动序列进行修改和完善。在数据标注阶段,论文使用了人工标注的方法,对采集到的数据进行标注。为了保证标注的准确性,论文制定了详细的标注规范,并对标注人员进行了培训。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CUHK-X数据集在HAR、HAU和HARn三个任务上进行了基准测试,分别取得了76.52%、40.76%和70.25%的平均准确率。这些结果表明,CUHK-X数据集为多模态人体活动分析提供了有效的数据支持,并为未来的研究奠定了基础。该数据集的规模和质量优于现有的HAR数据集,为研究人员提供了更广阔的研究空间。

🎯 应用场景

该研究成果可应用于智能家居、智能安防、医疗健康等领域。例如,在智能家居中,可以通过分析用户的活动模式,实现个性化的服务推荐和智能控制。在智能安防中,可以识别异常行为,及时发出警报。在医疗健康领域,可以监测患者的康复情况,提供个性化的康复方案。该数据集的发布将促进多模态人体活动分析领域的发展。

📄 摘要(原文)

Multimodal human action recognition (HAR) leverages complementary sensors for activity classification. Beyond recognition, recent advances in large language models (LLMs) enable detailed descriptions and causal reasoning, motivating new tasks: human action understanding (HAU) and human action reasoning (HARn). However, most LLMs, especially large vision language models (LVLMs), struggle with non-RGB modalities such as depth, IMU, and mmWave due to the lack of large-scale data-caption resources. Existing HAR datasets mainly provide coarse data-label annotations, which are insufficient to capture fine-grained action dynamics needed for HAU and HARn. We consider two ground-truth pair types: (1) data label (discrete category) and (2) data caption (textual description). Naively generating captions from labels often lacks logical and spatiotemporal consistency. We introduce CUHK-X, a large-scale multimodal dataset and benchmark suite for HAR, HAU, and HARn. CUHK-X contains 58,445 samples covering 40 actions performed by 30 participants across two indoor environments. To improve caption consistency, we propose a prompt-based scene creation method that leverages LLMs to generate logically connected activity sequences, followed by human validation. CUHK-X includes three benchmarks with six evaluation tasks. Experiments report average accuracies of 76.52% (HAR), 40.76% (HAU), and 70.25% (HARn). CUHK-X aims to enable the community to apply and develop data-intensive learning methods for robust, multimodal human activity analysis. Project page and code: https://openaiotlab.github.io/CUHK-X/ and https://github.com/openaiotlab/CUHK-X.