Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction

作者: Si-Belkacem Yamine Ketir, Lenard Paulo Tamayo, Shohei Hisada, Shaowen Peng, Shoko Wakamiya, Eiji Aramaki

分类: cs.CL

发布日期: 2026-05-15

备注: 11 pages, 6 figures

💡 一句话要点

提出基于LLM的数据增强框架，提升认知障碍语音评估的准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据增强 认知障碍 语音分析 临床评估

📋 核心要点

现有认知障碍语音评估方法受限于数据集规模小和类别不平衡问题，导致模型泛化能力不足。
利用大型语言模型生成与书面回答语义相关的类口语独白，进行数据增强，解决数据稀缺问题。
实验表明，相似性引导的类平衡选择策略能有效提升低分人群的预测准确率，改善类别不平衡带来的影响。

📝 摘要（中文）

由于数据集规模有限和类别不平衡，从自发语音中准确评估认知衰退仍然具有挑战性。本文提出了一种由大型语言模型（LLM）驱动的数据增强框架，以提高语音认知评分的预测。实验在一个日语语料库上进行，其中每个参与者都对相同的临床提示提供自发的口头叙述和书面回答。书面回答作为语义锚点，使用GPT-5生成多种不同风格的类口语独白。然后，我们使用在Sentence-BERT语音嵌入上训练的偏最小二乘回归模型来预测Hasegawa痴呆量表评分，这是一种在日本广泛使用的认知筛查工具。我们研究了两种增强策略：随机类平衡选择，产生适度但不稳定的改进；以及相似性引导的类平衡选择。后者优先考虑语义上接近的合成样本，从而实现更一致的改进，并显着减少少数低分参与者的预测误差，同时保持多数群体的表现。总的来说，我们的发现证明了语义引导的LLM驱动增强作为一种原则性方法，在临床语音分析中解决类别不平衡和提高数据效率的潜力。

🔬 方法详解

问题定义：论文旨在解决临床语音分析中，由于数据集规模小和类别不平衡导致的认知评分预测不准确问题。现有方法难以有效利用有限的数据，对少数类别的预测效果差，影响了临床诊断的可靠性。

核心思路：论文的核心思路是利用大型语言模型（LLM）生成与现有数据语义相关的合成数据，从而实现数据增强。通过将书面回答作为语义锚点，指导LLM生成多种风格的类口语独白，增加数据的多样性和数量，缓解类别不平衡问题。

技术框架：整体框架包含以下几个主要阶段：1) 数据收集：收集包含口头叙述和书面回答的日语语料库。2) 语义锚定：将书面回答作为语义锚点。3) LLM生成：使用GPT-5等LLM，基于语义锚点生成多种风格的类口语独白。4) 特征提取：使用Sentence-BERT提取语音嵌入特征。5) 模型训练：使用偏最小二乘回归模型（Partial Least Squares regression）进行认知评分预测。6) 评估：评估不同数据增强策略对预测性能的影响。

关键创新：最重要的技术创新点在于提出了语义引导的LLM驱动数据增强方法。与传统的数据增强方法不同，该方法利用LLM的生成能力，生成与原始数据语义相关的合成数据，从而更有效地扩充数据集，并缓解类别不平衡问题。此外，相似性引导的类平衡选择策略进一步提升了增强效果。

关键设计：在数据增强策略上，论文比较了两种方法：随机类平衡选择和相似性引导的类平衡选择。相似性引导的类平衡选择优先选择与原始数据语义相似的合成样本，通过计算原始语音嵌入和合成语音嵌入之间的相似度来实现。在模型训练方面，使用偏最小二乘回归模型，并采用Sentence-BERT提取语音嵌入特征。Hasegawa痴呆量表评分作为认知评分的标签。

🖼️ 关键图片

📊 实验亮点

实验结果表明，相似性引导的类平衡选择策略能够更有效地提升认知评分预测的准确性。该方法在显著减少少数低分参与者的预测误差的同时，保持了多数群体的表现。与随机类平衡选择相比，相似性引导的方法提供了更稳定和显著的性能提升，证明了语义信息在数据增强中的重要性。

🎯 应用场景

该研究成果可应用于临床认知障碍的早期筛查和诊断。通过结合患者的自发语音和LLM驱动的数据增强技术，可以更准确地评估认知功能，辅助医生进行诊断和制定治疗方案。此外，该方法还可以推广到其他医疗领域，例如抑郁症、精神分裂症等精神疾病的语音分析。

📄 摘要（原文）

Accurate assessment of cognitive decline from spontaneous speech remains challenging due to limited dataset size and class imbalance. In this work, we propose a large language model (LLM)-driven data augmentation framework to improve the prediction of cognitive scores from speech. Experiments are conducted on a Japanese corpus in which each participant provides both a spontaneous oral narrative and a written response to the same clinical prompt. The written responses serve as semantic anchors to generate multiple oral-like monologues in different styles using GPT-5. We then predict Hasegawa Dementia Scale scores, a widely used cognitive screening tool in Japan, using a Partial Least Squares regression model trained on Sentence-BERT speech embeddings. We investigate two augmentation strategies: random class-balanced selection, which yields moderate but unstable improvements, and similarity-guided class-balanced selection. The latter prioritizes semantically close synthetic samples, leading to more consistent improvements and substantially reducing prediction error for minority low-score participants while maintaining performance for the majority group. Overall, our findings demonstrate the potential of semantically guided LLM-driven augmentation as a principled approach for addressing class imbalance and improving data efficiency in clinical speech analysis.

Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理