Towards a Method for Synthetic Generation of Persons with Aphasia Transcripts
作者: Jason M. Pittman, Anton Phillips, Yesenia Medina-Santos, Brielle C. Stark
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-10-28 (更新: 2025-10-30)
备注: 19 pages, 1 figure, 7 tables
💡 一句话要点
提出两种方法合成生成失语症患者的语音转录文本,缓解数据稀缺问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 失语症 语音转录 合成数据 大型语言模型 数据增强
📋 核心要点
- 失语症语音识别系统开发面临数据稀缺的挑战,现有AphasiaBank数据量远小于大型语言模型训练所需。
- 本研究探索使用程序化方法和大型语言模型生成合成失语症语音转录文本,以扩充数据集。
- 实验表明,Mistral 7b Instruct模型生成的转录文本在语言退化方面更接近真实失语症患者的语音特征。
📝 摘要(中文)
在失语症研究中,言语-语言病理学家(SLP)花费大量时间使用正确信息单元(CIU)手动编码语音样本,CIU是一种衡量语音样本信息量的指标。由于数据稀缺,开发自动识别失语症语言的系统受到限制。例如,AphasiaBank中只有大约600个转录本,而大型语言模型(LLM)的训练使用了数十亿个token。在更广泛的机器学习(ML)领域,当数据稀疏时,研究人员越来越多地转向合成数据。因此,本研究构建并验证了两种生成AphasiaBank Cat Rescue图片描述任务的合成转录本的方法。一种方法利用程序编程方法,第二种方法使用Mistral 7b Instruct和Llama 3.1 8b Instruct LLM。这些方法通过丢词、插入填充词和错语替换来生成四个严重程度级别(轻度、中度、重度、非常重度)的转录本。总体而言,我们发现,与人工引出的转录本相比,Mistral 7b Instruct最好地捕捉到了失语症中观察到的语言退化的关键方面,在合成生成方法中显示了NDW、单词计数和单词长度的真实方向性变化。基于结果,未来的工作应计划创建更大的数据集,微调模型以更好地表示失语症,并让SLP评估合成转录本的真实性和有用性。
🔬 方法详解
问题定义:失语症语音识别模型的训练需要大量的标注数据,但现有公开数据集(如AphasiaBank)的数据量不足,限制了模型的性能提升。人工标注成本高昂,因此需要一种方法来生成高质量的合成数据,以扩充训练集。现有方法可能无法很好地模拟失语症患者的语言特征,导致合成数据与真实数据存在较大差异。
核心思路:本研究的核心思路是利用程序化方法和大型语言模型(LLM)来生成合成的失语症语音转录文本。通过模拟失语症患者常见的语言障碍,如丢词、插入填充词和错语替换,生成具有不同严重程度的合成数据。LLM的优势在于其强大的语言生成能力,可以生成更自然、更逼真的文本。
技术框架:本研究提出了两种生成合成转录文本的方法: 1. 程序化方法:使用预定义的规则和参数,通过随机丢词、插入填充词和替换词语来模拟失语症患者的语言特征。 2. 基于LLM的方法:使用Mistral 7b Instruct和Llama 3.1 8b Instruct等LLM,通过提示工程(prompt engineering)来生成具有不同严重程度的失语症语音转录文本。输入提示包含任务描述、严重程度级别等信息。
关键创新:本研究的关键创新在于探索了使用LLM生成合成失语症语音转录文本的可能性,并验证了其有效性。与传统的程序化方法相比,LLM能够生成更自然、更逼真的文本,更好地模拟失语症患者的语言特征。此外,本研究还比较了不同LLM的性能,并分析了其优缺点。
关键设计: * 严重程度级别:定义了四个严重程度级别(轻度、中度、重度、非常重度),并为每个级别设置了不同的参数,如丢词率、填充词插入率和错语替换率。 * 提示工程:设计了合适的提示语,引导LLM生成符合要求的合成文本。提示语包含任务描述、严重程度级别、上下文信息等。 * 评估指标:使用了NDW(Number of Distinct Words)、单词计数和单词长度等指标来评估合成数据的质量,并与真实数据进行比较。
📊 实验亮点
实验结果表明,Mistral 7b Instruct模型生成的合成转录文本在NDW、单词计数和单词长度等指标上更接近真实失语症患者的语音特征,优于程序化方法。该模型能够更好地捕捉失语症患者的语言退化现象,为后续研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于失语症语音识别模型的训练数据扩充,提高模型的泛化能力和鲁棒性。此外,合成数据还可以用于评估和比较不同的失语症诊断和治疗方法。未来,该方法有望推广到其他语言障碍领域,为相关研究提供数据支持。
📄 摘要(原文)
In aphasia research, Speech-Language Pathologists (SLPs) devote extensive time to manually coding speech samples using Correct Information Units (CIUs), a measure of how informative an individual sample of speech is. Developing automated systems to recognize aphasic language is limited by data scarcity. For example, only about 600 transcripts are available in AphasiaBank yet billions of tokens are used to train large language models (LLMs). In the broader field of machine learning (ML), researchers increasingly turn to synthetic data when such are sparse. Therefore, this study constructs and validates two methods to generate synthetic transcripts of the AphasiaBank Cat Rescue picture description task. One method leverages a procedural programming approach while the second uses Mistral 7b Instruct and Llama 3.1 8b Instruct LLMs. The methods generate transcripts across four severity levels (Mild, Moderate, Severe, Very Severe) through word dropping, filler insertion, and paraphasia substitution. Overall, we found, compared to human-elicited transcripts, Mistral 7b Instruct best captures key aspects of linguistic degradation observed in aphasia, showing realistic directional changes in NDW, word count, and word length amongst the synthetic generation methods. Based on the results, future work should plan to create a larger dataset, fine-tune models for better aphasic representation, and have SLPs assess the realism and usefulness of the synthetic transcripts.