CognoSpeak: an automatic, remote assessment of early cognitive decline in real-world conversational speech
作者: Madhurananda Pahar, Fuxiang Tao, Bahman Mirheidari, Nathan Pevy, Rebecca Bright, Swapnil Gadgil, Lise Sproson, Dorota Braun, Caitlin Illingworth, Daniel Blackburn, Heidi Christensen
分类: cs.SD, cs.LG, eess.AS
发布日期: 2025-01-10
备注: This paper has been accepted for publication in IEEE SSCI 2025. Copyright belongs to IEEE
期刊: IEEE SSCI, 2025
DOI: 10.1109/CIHM64979.2025.10969487
💡 一句话要点
CognoSpeak:一种基于真实对话语音的早期认知衰退自动远程评估系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 认知衰退 对话语音 远程评估 虚拟代理 DistilBERT
📋 核心要点
- 临床认知评估耗时且成本高昂,而对话语音中往往包含认知衰退的早期迹象,因此自动检测语音中的线索至关重要。
- CognoSpeak通过虚拟代理进行记忆探测提问和认知任务,收集多模态数据和丰富的元数据,用于认知衰退的评估。
- 实验结果表明,使用DistilBERT模型在区分认知障碍患者和健康志愿者方面取得了较高的性能,F1-score达到0.873。
📝 摘要(中文)
本论文介绍了CognoSpeak及其相关的数据收集工作,旨在通过分析对话语音中的早期认知衰退迹象,为神经退行性疾病的早期诊断提供支持。临床检测成本高、耗时。CognoSpeak利用移动或Web平台上的虚拟代理,提出记忆探测的长短期问题,并执行标准的认知任务,如言语和语义流畅性以及图片描述。此外,它还收集多模态数据(如音频和视频)以及来自初级和二级护理、记忆诊所和家庭等远程环境的丰富元数据。论文展示了对126名受试者音频的手动转录结果,并研究和评估了多种经典分类器以及基于大型语言模型的分类器在不同类型的提示下的表现。结果表明,使用DistilBERT模型区分认知障碍患者(痴呆症和轻度认知障碍(MCI))与健康志愿者,在记忆反应、流畅性任务和cookie盗窃图片描述方面,F1-score达到了0.873。CognoSpeak是一种自动、远程、低成本、可重复、非侵入性和压力较小的现有临床认知评估替代方案。
🔬 方法详解
问题定义:论文旨在解决早期认知衰退的自动远程评估问题。现有临床评估方法成本高昂、耗时,且对患者造成压力。现有的语音分析系统通常基于小规模、缺乏详细元数据和人口统计信息的数据库进行训练,泛化能力有限。
核心思路:论文的核心思路是利用虚拟代理在移动或Web平台上与受试者进行对话,通过分析受试者的语音和语言特征来评估其认知功能。这种方法旨在提供一种自动、远程、低成本、可重复且非侵入性的认知评估替代方案。
技术框架:CognoSpeak系统包含以下主要模块:1)虚拟代理交互模块:负责与受试者进行对话,提出记忆探测问题和认知任务;2)多模态数据采集模块:收集受试者的音频、视频以及相关的元数据;3)语音和语言特征提取模块:从语音和文本数据中提取相关的特征,例如词汇多样性、语法复杂度、语音流畅性等;4)分类模型训练模块:使用提取的特征训练分类模型,用于区分认知障碍患者和健康志愿者。
关键创新:该论文的关键创新在于:1)构建了一个包含丰富元数据的大规模对话语音数据集,用于训练和评估认知衰退检测模型;2)提出了一种基于虚拟代理的自动远程认知评估方法,降低了评估成本和患者压力;3)探索了多种经典分类器和基于大型语言模型的分类器在认知衰退检测中的应用。
关键设计:论文中使用了DistilBERT模型作为分类器,该模型是一种轻量级的Transformer模型,具有较快的推理速度和较好的性能。实验中,使用了手动转录的音频数据,并提取了多种语音和语言特征。模型的训练目标是区分认知障碍患者(痴呆症和轻度认知障碍)与健康志愿者。具体参数设置和损失函数等细节未在摘要中详细说明。
🖼️ 关键图片
📊 实验亮点
该研究最重要的实验结果是,使用DistilBERT模型在区分认知障碍患者(痴呆症和轻度认知障碍)与健康志愿者方面取得了较高的性能,F1-score达到了0.873。这表明基于对话语音的自动认知评估具有很高的潜力,可以作为现有临床评估方法的有效补充。
🎯 应用场景
CognoSpeak具有广泛的应用前景,可用于大规模人群的认知筛查、远程医疗、临床试验招募等。该系统可以帮助医生更早地发现认知衰退的迹象,从而为患者提供更及时的治疗和干预。此外,CognoSpeak还可以用于监测认知功能随时间的变化,评估治疗效果。
📄 摘要(原文)
The early signs of cognitive decline are often noticeable in conversational speech, and identifying those signs is crucial in dealing with later and more serious stages of neurodegenerative diseases. Clinical detection is costly and time-consuming and although there has been recent progress in the automatic detection of speech-based cues, those systems are trained on relatively small databases, lacking detailed metadata and demographic information. This paper presents CognoSpeak and its associated data collection efforts. CognoSpeak asks memory-probing long and short-term questions and administers standard cognitive tasks such as verbal and semantic fluency and picture description using a virtual agent on a mobile or web platform. In addition, it collects multimodal data such as audio and video along with a rich set of metadata from primary and secondary care, memory clinics and remote settings like people's homes. Here, we present results from 126 subjects whose audio was manually transcribed. Several classic classifiers, as well as large language model-based classifiers, have been investigated and evaluated across the different types of prompts. We demonstrate a high level of performance; in particular, we achieved an F1-score of 0.873 using a DistilBERT model to discriminate people with cognitive impairment (dementia and people with mild cognitive impairment (MCI)) from healthy volunteers using the memory responses, fluency tasks and cookie theft picture description. CognoSpeak is an automatic, remote, low-cost, repeatable, non-invasive and less stressful alternative to existing clinical cognitive assessments.