Analyzing Multimodal Features of Spontaneous Voice Assistant Commands for Mild Cognitive Impairment Detection
作者: Nana Lin, Youxiang Zhu, Xiaohui Liang, John A. Batsis, Caroline Summerour
分类: eess.AS, cs.CL, cs.LG, cs.SD
发布日期: 2024-11-06
DOI: 10.21437/Interspeech.2024-2288
💡 一句话要点
利用语音助手命令的多模态特征进行轻度认知障碍检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 轻度认知障碍检测 语音助手 多模态融合 命令生成 老年人健康
📋 核心要点
- 现有MCI检测方法依赖于耗时且昂贵的临床评估,缺乏便捷性和可扩展性。
- 该研究提出利用语音助手命令生成任务,通过分析语音、文本和意图等多模态特征来检测MCI。
- 实验结果表明,命令生成任务优于命令阅读任务,多模态融合特征实现了82%的分类准确率。
📝 摘要(中文)
本研究探讨了利用老年人在受控环境下自发生成的语音助手(VA)命令来检测轻度认知障碍(MCI)的可能性,MCI是发展为痴呆症的主要风险因素。设计了一个命令生成任务,参与者根据预定义的意图自由生成命令,这些命令比阅读命令更能反映认知能力。我们开发了基于音频、文本、意图和多模态融合特征的MCI分类和回归模型。结果表明,命令生成任务优于命令阅读任务,利用多模态融合特征实现了平均82%的分类准确率。此外,生成的命令与记忆和注意力子域的相关性比阅读命令更强。研究结果证实了命令生成任务的有效性,并暗示了使用家庭环境中长期收集的命令进行MCI检测的前景。
🔬 方法详解
问题定义:该论文旨在解决轻度认知障碍(MCI)的早期检测问题。现有方法,如传统的认知测试,往往耗时且主观。利用语音助手进行MCI检测的研究较少,且多集中于阅读命令,无法充分反映自发语言能力和认知功能。因此,需要一种更自然、便捷且能有效捕捉MCI相关认知特征的方法。
核心思路:核心思路是设计一个命令生成任务,让老年人根据预定义的意图自由生成语音助手命令。这种自发生成的命令更能反映个体的认知能力,如语言流畅性、记忆力和执行功能。通过分析这些命令的音频、文本和意图等多模态特征,可以构建MCI检测模型。
技术框架:整体框架包括数据采集、特征提取和模型构建三个主要阶段。首先,参与者在受控环境下完成命令生成任务。然后,从生成的命令中提取音频特征(如梅尔频率倒谱系数MFCC)、文本特征(如词袋模型BoW、TF-IDF)和意图特征(预定义意图的one-hot编码)。最后,使用机器学习算法(如支持向量机SVM、逻辑回归)构建分类和回归模型,并采用多模态融合策略(如特征级联、决策级融合)整合不同模态的信息。
关键创新:关键创新在于使用命令生成任务来诱导更具认知代表性的语音数据。与传统的命令阅读任务相比,命令生成任务更能反映个体的自发语言能力和认知功能。此外,多模态融合策略能够有效整合不同模态的信息,提高MCI检测的准确率。
关键设计:在命令生成任务中,预定义了一系列与日常生活相关的意图,如“设置闹钟”、“播放音乐”等。音频特征采用MFCC,文本特征采用词袋模型和TF-IDF。分类模型采用支持向量机(SVM)和逻辑回归,回归模型用于预测认知测试得分。多模态融合采用特征级联和决策级融合。实验中,使用了35名老年人的数据,并进行了交叉验证以评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于命令生成任务的模型优于基于命令阅读任务的模型,分类准确率平均达到82%。多模态融合特征显著提高了MCI检测的性能。生成的命令与记忆和注意力子域的相关性更高,验证了命令生成任务的有效性。该研究为利用语音助手进行MCI早期检测提供了有力的证据。
🎯 应用场景
该研究成果可应用于开发基于语音助手的MCI早期筛查工具,方便老年人在家中进行自测,降低医疗成本。长期监测用户的语音交互数据,可以追踪认知功能的变化,为临床诊断和干预提供参考。此外,该方法还可以扩展到其他认知障碍的检测,如阿尔茨海默病。
📄 摘要(原文)
Mild cognitive impairment (MCI) is a major public health concern due to its high risk of progressing to dementia. This study investigates the potential of detecting MCI with spontaneous voice assistant (VA) commands from 35 older adults in a controlled setting. Specifically, a command-generation task is designed with pre-defined intents for participants to freely generate commands that are more associated with cognitive ability than read commands. We develop MCI classification and regression models with audio, textual, intent, and multimodal fusion features. We find the command-generation task outperforms the command-reading task with an average classification accuracy of 82%, achieved by leveraging multimodal fusion features. In addition, generated commands correlate more strongly with memory and attention subdomains than read commands. Our results confirm the effectiveness of the command-generation task and imply the promise of using longitudinal in-home commands for MCI detection.