MMASD+: A Novel Dataset for Privacy-Preserving Behavior Analysis of Children with Autism Spectrum Disorder
作者: Pavan Uttej Ravva, Behdokht Kiafar, Pinar Kullu, Jicheng Li, Anjana Bhat, Roghayeh Leila Barmaki
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-08-27 (更新: 2024-08-28)
💡 一句话要点
MMASD+:用于自闭症儿童行为分析的隐私保护多模态数据集与Transformer框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自闭症谱系障碍 行为分析 多模态数据集 Transformer模型 深度学习 计算机视觉 Yolov8 Deep SORT
📋 核心要点
- 现有自闭症行为分析模型依赖私有数据集,缺乏统一标准,阻碍了模型间的公平比较与泛化能力。
- 论文提出MMASD+数据集,包含3D骨骼、3D身体网格和光流等多模态数据,并使用Yolov8和Deep SORT区分治疗师和儿童。
- 论文构建多模态Transformer框架,融合多模态数据,在动作类型和ASD预测任务上分别达到95.03%和96.42%的准确率,显著优于单模态模型。
📝 摘要(中文)
自闭症谱系障碍(ASD)的特征是社交互动和理解交流信号方面的显著挑战。近年来,用于ASD的治疗干预越来越多地利用深度学习驱动的计算机视觉技术来监测个体随时间的进展。这些模型在来自自闭症社区的私有、非公开数据集上进行训练,由于隐私保护的数据共享问题,导致不同模型之间的结果比较存在挑战。本研究介绍了MMASD+,它是名为多模态ASD (MMASD)的新型开源数据集的增强版本。MMASD+包含多种数据模态,包括3D骨骼、3D身体网格和光流数据。它集成了Yolov8和Deep SORT算法的功能来区分治疗师和儿童,解决了原始数据集中的一个重大障碍。此外,还提出了一个多模态Transformer框架来预测11种动作类型和ASD的存在。该框架在预测动作类型方面的准确率达到95.03%,在预测ASD存在方面的准确率达到96.42%,与在单一数据模态上训练的模型相比,提高了10%以上。这些发现突出了在多模态Transformer框架中集成多种数据模态的优势。
🔬 方法详解
问题定义:目前自闭症行为分析领域缺乏公开、标准化的多模态数据集,现有模型训练依赖私有数据,导致模型性能难以评估和比较。此外,原始数据集中难以区分治疗师和儿童,影响了行为分析的准确性。
核心思路:论文的核心思路是构建一个公开可用的多模态数据集MMASD+,并设计一个多模态Transformer框架,充分利用不同模态数据之间的互补信息,提高自闭症行为分析的准确性和鲁棒性。通过集成Yolov8和Deep SORT算法,解决数据集中治疗师和儿童区分的问题。
技术框架:整体框架包含数据采集与预处理、目标检测与跟踪、多模态特征提取和多模态Transformer模型四个主要阶段。首先,采集3D骨骼、3D身体网格和光流数据。然后,利用Yolov8和Deep SORT算法区分视频中的治疗师和儿童。接着,从不同模态的数据中提取特征。最后,将提取的特征输入到多模态Transformer模型中进行动作类型和ASD预测。
关键创新:论文的关键创新在于构建了MMASD+数据集,该数据集包含多种模态的数据,并解决了原始数据集中治疗师和儿童区分的问题。此外,提出的多模态Transformer框架能够有效地融合不同模态的数据,显著提高了自闭症行为分析的准确性。
关键设计:在数据预处理阶段,对3D骨骼数据进行了归一化处理,以消除个体差异的影响。在多模态Transformer模型中,使用了多头注意力机制来学习不同模态数据之间的关系。损失函数采用了交叉熵损失函数,用于优化模型的参数。网络结构方面,Transformer的层数和隐藏层维度等参数经过了实验调整,以达到最佳性能。
📊 实验亮点
MMASD+数据集的构建和多模态Transformer框架的提出,在自闭症行为分析领域取得了显著的性能提升。实验结果表明,该框架在预测动作类型方面的准确率达到95.03%,在预测ASD存在方面的准确率达到96.42%,与在单一数据模态上训练的模型相比,提高了10%以上。这充分证明了多模态数据融合的有效性。
🎯 应用场景
该研究成果可应用于自闭症儿童的早期诊断、个性化治疗方案制定和疗效评估。通过分析儿童的行为模式,可以帮助医生和治疗师更好地了解患者的病情,并制定更有效的干预措施。此外,该数据集和模型可以促进自闭症研究领域的开放合作,加速相关技术的进步。
📄 摘要(原文)
Autism spectrum disorder (ASD) is characterized by significant challenges in social interaction and comprehending communication signals. Recently, therapeutic interventions for ASD have increasingly utilized Deep learning powered-computer vision techniques to monitor individual progress over time. These models are trained on private, non-public datasets from the autism community, creating challenges in comparing results across different models due to privacy-preserving data-sharing issues. This work introduces MMASD+, an enhanced version of the novel open-source dataset called Multimodal ASD (MMASD). MMASD+ consists of diverse data modalities, including 3D-Skeleton, 3D Body Mesh, and Optical Flow data. It integrates the capabilities of Yolov8 and Deep SORT algorithms to distinguish between the therapist and children, addressing a significant barrier in the original dataset. Additionally, a Multimodal Transformer framework is proposed to predict 11 action types and the presence of ASD. This framework achieves an accuracy of 95.03% for predicting action types and 96.42% for predicting ASD presence, demonstrating over a 10% improvement compared to models trained on single data modalities. These findings highlight the advantages of integrating multiple data modalities within the Multimodal Transformer framework.