Improving Autism Detection with Multimodal Behavioral Analysis

📄 arXiv: 2509.21352v1 📥 PDF

作者: William Saakyan, Matthias Norden, Lola Eversmann, Simon Kirsch, Muyu Lin, Simon Guendelman, Isabel Dziobek, Hanna Drimalla

分类: cs.CV, cs.LG

发布日期: 2025-09-19


💡 一句话要点

提出基于多模态行为分析的自闭症检测方法,提升诊断准确率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自闭症检测 多模态分析 行为识别 注视行为 机器学习

📋 核心要点

  1. 现有自闭症检测模型在注视特征提取和泛化能力方面存在不足,限制了其在实际场景中的应用。
  2. 本研究提出一种多模态行为分析方法,融合面部表情、语音、头部运动、心率和注视行为等多种信息。
  3. 通过引入新的注视行为统计描述符,并结合多模态信息融合,显著提升了自闭症检测的准确率。

📝 摘要(中文)

本研究旨在通过分析患者视频数据中的行为线索,改进自闭症谱系障碍(ASC)的计算机辅助诊断方法。现有模型在注视特征表现不佳且缺乏实际泛化能力。为此,我们分析了一个包含168名ASC患者(46%为女性)和157名非自闭症参与者(46%为女性)的标准视频数据集,这是目前已知最大且最平衡的数据集。我们对人脸表情、语音韵律、头部运动、心率变异性(HRV)和注视行为进行多模态分析。针对现有注视模型的局限性,我们引入了新的统计描述符来量化眼球注视角度的变化,将基于注视的分类准确率从64%提高到69%,并将计算结果与ASC注视回避的临床研究结果相一致。通过后期融合,我们实现了74%的分类准确率,证明了整合多种模态行为标记的有效性。我们的研究结果突出了可扩展的、基于视频的筛查工具在支持自闭症评估方面的潜力。

🔬 方法详解

问题定义:现有基于视频的自闭症检测方法,尤其是在处理注视行为特征时,表现不佳。这些方法通常无法准确捕捉自闭症患者在注视行为上的细微差异,导致分类准确率较低,且难以泛化到真实世界场景。

核心思路:本研究的核心思路是通过多模态融合来提升自闭症检测的准确性。具体来说,就是结合面部表情、语音韵律、头部运动、心率变异性和注视行为等多种生理和行为特征,利用它们之间的互补信息,从而更全面地刻画自闭症患者的行为模式。同时,针对注视行为特征提取的不足,设计新的统计描述符来量化注视角度的变化。

技术框架:该方法采用多模态特征提取和后期融合的框架。首先,对视频数据中的人脸表情、语音、头部运动、心率和注视行为分别进行特征提取。然后,针对注视行为,引入新的统计描述符来量化注视角度的变化。最后,采用后期融合策略,将不同模态的特征进行整合,并使用分类器进行自闭症检测。

关键创新:该研究的关键创新在于提出了新的注视行为统计描述符,能够更有效地捕捉自闭症患者在注视行为上的异常模式。这些描述符量化了眼球注视角度的变化,从而更好地反映了自闭症患者的注视回避行为。

关键设计:在注视行为特征提取方面,设计了新的统计描述符来量化眼球注视角度的变化,例如注视角度的标准差、范围等。在多模态融合方面,采用了后期融合策略,即先对每个模态进行独立分类,然后将各个模态的分类结果进行加权融合。具体的权重参数可能需要通过实验进行调整优化。

📊 实验亮点

实验结果表明,通过引入新的注视行为统计描述符,基于注视的分类准确率从64%提高到69%。通过多模态融合,最终实现了74%的分类准确率,显著优于单一模态方法,证明了该方法在自闭症检测方面的有效性。该数据集是目前已知最大且最平衡的数据集,保证了实验结果的可靠性。

🎯 应用场景

该研究成果可应用于开发可扩展的、基于视频的自闭症筛查工具,辅助临床医生进行自闭症评估和早期诊断。这种工具可以降低诊断成本,提高诊断效率,并有助于更早地发现和干预自闭症患者,改善他们的生活质量。未来,该技术还可以扩展到其他神经发育障碍的诊断和评估。

📄 摘要(原文)

Due to the complex and resource-intensive nature of diagnosing Autism Spectrum Condition (ASC), several computer-aided diagnostic support methods have been proposed to detect autism by analyzing behavioral cues in patient video data. While these models show promising results on some datasets, they struggle with poor gaze feature performance and lack of real-world generalizability. To tackle these challenges, we analyze a standardized video dataset comprising 168 participants with ASC (46% female) and 157 non-autistic participants (46% female), making it, to our knowledge, the largest and most balanced dataset available. We conduct a multimodal analysis of facial expressions, voice prosody, head motion, heart rate variability (HRV), and gaze behavior. To address the limitations of prior gaze models, we introduce novel statistical descriptors that quantify variability in eye gaze angles, improving gaze-based classification accuracy from 64% to 69% and aligning computational findings with clinical research on gaze aversion in ASC. Using late fusion, we achieve a classification accuracy of 74%, demonstrating the effectiveness of integrating behavioral markers across multiple modalities. Our findings highlight the potential for scalable, video-based screening tools to support autism assessment.