Detecting Children with Autism Spectrum Disorder based on Script-Centric Behavior Understanding with Emotional Enhancement

📄 arXiv: 2411.09413v2 📥 PDF

作者: Wenxing Liu, Yueran Pan, Dong Zhang, Hongzhu Deng, Xiaobing Zou, Ming Li

分类: cs.CV, cs.AI

发布日期: 2024-11-14 (更新: 2025-04-29)

备注: 15 pages, 12 figures, sumbitted to IEEE transactions on affective computing


💡 一句话要点

提出基于脚本行为理解与情感增强的自闭症谱系障碍零样本检测框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自闭症谱系障碍检测 零样本学习 大型语言模型 脚本行为理解 情感增强

📋 核心要点

  1. 现有自闭症诊断方法依赖有监督学习,面临诊断样本不足和结果缺乏可解释性的挑战。
  2. 论文提出基于脚本行为理解和情感增强的零样本检测框架,利用大语言模型进行诊断。
  3. 实验表明,该方法在两岁儿童的自闭症诊断中取得了95.24%的F1分数,并提供可解释的诊断依据。

📝 摘要(中文)

本文提出了一种新颖的基于脚本行为理解与情感增强的自闭症谱系障碍(ASD)零样本检测框架,旨在克服现有监督学习方法在临床应用中面临的ASD诊断样本不足和检测结果可解释性差的问题。该框架通过计算机视觉技术将视听数据自动转换为结构化的行为文本脚本,并利用大型语言模型(LLM)的泛化能力进行零样本/少样本ASD检测。主要贡献包括:多模态脚本转录模块,将行为线索转换为结构化文本表示;情感文本化模块,将情感动态编码为上下文特征以增强行为理解;以及领域特定的提示工程策略,将临床知识注入LLM。该方法在平均年龄为两岁的儿童的ASD诊断中实现了95.24%的F1分数,并生成可解释的检测理由。这项工作为利用LLM分析和理解ASD相关的人类行为开辟了新途径,从而提高了辅助自闭症诊断的准确性。

🔬 方法详解

问题定义:现有自闭症谱系障碍(ASD)的诊断方法主要依赖于有监督学习,但面临两个主要问题:一是可用于训练的ASD诊断样本数量不足,导致模型泛化能力受限;二是模型通常是黑盒,缺乏可解释性,难以让医生理解诊断依据。

核心思路:本文的核心思路是将视听数据转化为结构化的行为文本脚本,然后利用大型语言模型(LLM)强大的泛化能力和知识储备,进行零样本或少样本的ASD检测。通过将复杂的视听信息转化为LLM能够理解的文本形式,并结合情感信息,可以有效提高诊断的准确性和可解释性。

技术框架:该框架主要包含三个模块:1) 多模态脚本转录模块:将视听数据(例如,儿童的行为动作、语音等)通过计算机视觉技术转化为结构化的文本脚本,描述儿童的行为序列。2) 情感文本化模块:提取视听数据中的情感信息,并将这些情感信息编码为文本特征,用于增强对儿童行为的理解。3) 领域特定提示工程模块:设计特定的提示语,将临床知识注入到LLM中,引导LLM进行ASD诊断,并生成可解释的诊断理由。

关键创新:该方法的主要创新在于:1) 零样本/少样本学习:利用LLM的泛化能力,无需大量标注数据即可进行ASD诊断。2) 脚本行为理解:将视听数据转化为结构化的文本脚本,便于LLM理解和分析。3) 情感增强:将情感信息融入到行为理解中,提高诊断的准确性。4) 可解释性:通过提示工程,LLM可以生成可解释的诊断理由,帮助医生理解诊断结果。

关键设计:在多模态脚本转录模块中,可能需要使用目标检测、姿态估计、语音识别等技术。情感文本化模块可能需要使用情感识别模型。提示工程模块需要精心设计提示语,以引导LLM进行正确的诊断。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在平均年龄为两岁的儿童的ASD诊断中实现了95.24%的F1分数。该结果表明,即使在数据量有限的情况下,该方法也能有效地进行ASD诊断,并生成可解释的诊断理由,为临床应用提供了有力的支持。具体的对比基线和提升幅度在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可应用于辅助自闭症早期诊断,尤其是在缺乏足够标注数据的情况下。通过自动分析儿童的视听数据,可以为医生提供客观、可解释的诊断依据,从而提高诊断的准确性和效率。未来,该技术有望推广到远程医疗、智能康复等领域,为更多自闭症儿童提供帮助。

📄 摘要(原文)

The early diagnosis of autism spectrum disorder (ASD) is critically dependent on systematic observation and analysis of children's social behaviors. While current methodologies predominantly utilize supervised learning approaches, their clinical adoption faces two principal limitations: insufficient ASD diagnostic samples and inadequate interpretability of the detection outcomes. This paper presents a novel zero-shot ASD detection framework based on script-centric behavioral understanding with emotional enhancement, which is designed to overcome the aforementioned clinical constraints. The proposed pipeline automatically converts audio-visual data into structured behavioral text scripts through computer vision techniques, subsequently capitalizing on the generalization capabilities of large language models (LLMs) for zero-shot/few-shot ASD detection. Three core technical contributions are introduced: (1) A multimodal script transcription module transforming behavioral cues into structured textual representations. (2) An emotion textualization module encoding emotional dynamics as the contextual features to augment behavioral understanding. (3) A domain-specific prompt engineering strategy enables the injection of clinical knowledge into LLMs. Our method achieves an F1-score of 95.24\% in diagnosing ASD in children with an average age of two years while generating interpretable detection rationales. This work opens up new avenues for leveraging the power of LLMs in analyzing and understanding ASD-related human behavior, thereby enhancing the accuracy of assisted autism diagnosis.