Multilingual Cognitive Impairment Detection in the Era of Foundation Models

📄 arXiv: 2604.06758v1 📥 PDF

作者: Damar Hoogland, Boshko Koloski, Jaya Caporusso, Tine Kolenik, Ana Zwitter Vitez, Senja Pollak, Christina Manouilidou, Matthew Purver

分类: cs.CL

发布日期: 2026-04-08

备注: Accepted as an oral at the RAPID workshop @ LREC 2026'


💡 一句话要点

利用预训练模型和语言特征进行多语种认知障碍检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 认知障碍检测 多语种 预训练模型 语言学特征 零样本学习

📋 核心要点

  1. 现有认知障碍检测方法在小数据集和多语种环境下表现受限,缺乏有效利用语言学特征的手段。
  2. 论文探索了零样本LLM和监督表格模型在多语种认知障碍检测中的应用,并结合语言学特征提升性能。
  3. 实验表明,监督表格模型结合人工设计的语言特征和嵌入,在小数据集上优于零样本LLM,且性能提升具有语言依赖性。

📝 摘要(中文)

本文评估了从英语、斯洛文尼亚语和韩语的语音转录文本中进行认知障碍(CI)分类的效果。我们比较了三种输入设置下的零样本大型语言模型(LLMs):仅转录文本、仅语言特征和两者结合,并将它们与在留一法协议下训练的有监督表格方法进行比较。表格模型基于人工设计的语言特征、转录文本嵌入以及两种模态的早期或晚期融合。结果表明,零样本LLMs提供了具有竞争力的无训练基线,但有监督表格模型通常表现更好,尤其是在包含人工设计的语言特征并与嵌入结合时。专注于嵌入的少样本实验表明,有限监督的价值因语言而异,某些语言从额外的标记示例中受益匪浅,而另一些语言在没有更丰富的特征表示的情况下仍然受到限制。总的来说,结果表明,在小数据CI检测中,结构化的语言信号和基于简单融合的分类器仍然是强大而可靠的信号。

🔬 方法详解

问题定义:论文旨在解决多语种环境下,利用语音转录文本进行认知障碍(CI)检测的问题。现有方法在小数据集上表现不佳,且未能充分利用语言学特征。此外,如何有效利用预训练语言模型(LLMs)进行零样本或少样本学习也是一个挑战。

核心思路:论文的核心思路是将预训练LLMs的强大表征能力与人工设计的语言学特征相结合,利用监督学习方法提升认知障碍检测的准确性。通过比较不同输入设置(仅文本、仅特征、文本+特征)和不同学习范式(零样本、少样本、监督学习),探索最佳的特征表示和学习策略。

技术框架:整体框架包括数据预处理、特征提取、模型训练和评估四个主要阶段。数据预处理包括语音转录和文本清洗。特征提取包括提取人工设计的语言学特征(如词汇多样性、句法复杂度等)和利用预训练模型生成文本嵌入。模型训练阶段,分别训练零样本LLMs和监督表格模型。评估阶段,采用留一法交叉验证评估模型性能。

关键创新:论文的关键创新在于:1) 探索了零样本LLMs在多语种认知障碍检测中的应用,为无监督学习提供了一种新的思路。2) 强调了人工设计的语言学特征的重要性,并将其与预训练模型生成的嵌入相结合,有效提升了模型性能。3) 进行了全面的多语种实验,验证了方法的泛化能力和语言依赖性。

关键设计:论文的关键设计包括:1) 针对不同语言,选择合适的预训练语言模型。2) 精心设计了一系列语言学特征,以捕捉认知障碍相关的语言模式。3) 采用了早期和晚期融合策略,将语言学特征和文本嵌入相结合。4) 使用留一法交叉验证,以充分利用小数据集。

📊 实验亮点

实验结果表明,在英语、斯洛文尼亚语和韩语三种语言上,监督表格模型结合人工设计的语言特征和嵌入,显著优于零样本LLMs。尤其是在小数据集上,语言学特征的加入带来了明显的性能提升。少样本实验表明,有限监督的价值具有语言依赖性。

🎯 应用场景

该研究成果可应用于智能医疗辅助诊断系统,帮助医生更准确地识别早期认知障碍患者。通过分析患者的日常对话,可以实现认知障碍的早期筛查和干预,提高患者的生活质量,减轻医疗负担。未来可扩展到其他神经退行性疾病的辅助诊断。

📄 摘要(原文)

We evaluate cognitive impairment (CI) classification from transcripts of speech in English, Slovene, and Korean. We compare zero-shot large language models (LLMs) used as direct classifiers under three input settings -- transcript-only, linguistic-features-only, and combined -- with supervised tabular approaches trained under a leave-one-out protocol. The tabular models operate on engineered linguistic features, transcript embeddings, and early or late fusion of both modalities. Across languages, zero-shot LLMs provide competitive no-training baselines, but supervised tabular models generally perform better, particularly when engineered linguistic features are included and combined with embeddings. Few-shot experiments focusing on embeddings indicate that the value of limited supervision is language-dependent, with some languages benefiting substantially from additional labelled examples while others remain constrained without richer feature representations. Overall, the results suggest that, in small-data CI detection, structured linguistic signals and simple fusion-based classifiers remain strong and reliable signals.