Bigger But Not Better: Small Neural Language Models Outperform Large Language Models in Detection of Thought Disorder
作者: Changye Li, Weizhe Xu, Serguei Pakhomov, Ellen Bradley, Dror Ben-Zeev, Trevor Cohen
分类: cs.CL
发布日期: 2025-03-25
备注: Accepted to CL Psych 2025 workshop, co-located with NAACL 2025
💡 一句话要点
小规模神经语言模型在检测思维障碍方面优于大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维障碍检测 神经语言模型 小型模型 困惑度 精神分裂症
📋 核心要点
- 大型语言模型在检测思维障碍方面表现出潜力,但其高昂的成本和隐私问题限制了临床应用。
- 该研究探索使用小型神经语言模型,通过困惑度测量来检测形式性思维障碍,旨在降低成本和提高隐私性。
- 实验结果表明,小型模型在检测思维障碍方面优于大型模型,挑战了“越大越好”的传统观念。
📝 摘要(中文)
思维紊乱是精神分裂症谱系障碍的关键诊断指标。最近的研究表明,大型语言模型(LLM)预测语音文本的难度与思维紊乱的临床严重程度相关。然而,LLM的部署面临隐私问题、计算和经济成本以及训练数据缺乏透明度等挑战,限制了其临床应用。本研究探讨了较小的神经语言模型是否可以作为检测形式性思维障碍的有效替代方案,采用与大型模型相同的基于滑动窗口的困惑度测量方法。结果表明,较小的模型对与形式性思维障碍相关的语言差异更敏感。检测能力在超过一定模型大小和上下文长度后会下降,挑战了“越大越好”的普遍假设。该发现推广到来自精神病症状患者的音频日记和临床访谈语音样本,为开发高效、经济且保护隐私的筛查工具提供了有希望的方向,这些工具可以部署在临床和自然环境中。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在检测思维障碍方面的应用限制问题。现有方法依赖于大型模型,但这些模型存在计算成本高昂、隐私风险以及训练数据不透明等问题,阻碍了其在临床环境中的广泛应用。因此,需要寻找一种更经济、更安全且更易于部署的替代方案来检测思维障碍。
核心思路:论文的核心思路是探索小型神经语言模型在检测思维障碍方面的潜力。研究人员假设,小型模型可能对与思维障碍相关的细微语言特征更加敏感,从而在特定任务上超越大型模型。通过降低模型规模,可以显著降低计算成本和隐私风险,同时保持甚至提高检测性能。
技术框架:该研究采用基于滑动窗口的困惑度测量方法,该方法已被证明在大型模型中有效。具体而言,对于给定的语音文本,将其分割成多个滑动窗口,然后使用神经语言模型计算每个窗口的困惑度。困惑度越高,表明模型对该窗口的预测越困难,可能与思维障碍相关。研究比较了不同大小的神经语言模型在检测思维障碍方面的性能。
关键创新:该研究的关键创新在于发现小型神经语言模型在检测思维障碍方面优于大型模型。这一发现挑战了“越大越好”的普遍假设,表明在某些特定任务中,小型模型可能更有效。此外,该研究还验证了该发现的泛化能力,证明其适用于不同类型的语音数据(音频日记和临床访谈)和不同的精神病症状患者。
关键设计:研究中使用了不同大小的神经语言模型,包括不同层数和参数量的Transformer模型。模型的训练数据和超参数设置未知。关键在于比较不同模型大小在检测思维障碍方面的性能,并分析模型大小与检测能力之间的关系。滑动窗口的大小和步长是重要的参数,可能影响困惑度测量的准确性。损失函数未知,但通常使用交叉熵损失函数训练语言模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,小型神经语言模型在检测形式性思维障碍方面优于大型语言模型。检测能力在超过一定模型大小和上下文长度后会下降。该发现推广到来自精神病症状患者的音频日记和临床访谈语音样本,表明小型模型具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于开发低成本、高效率且保护隐私的思维障碍筛查工具。这些工具可以部署在临床环境和自然环境中,例如通过分析患者的语音日记或临床访谈记录,辅助医生进行诊断和治疗。此外,该研究也为开发针对特定任务的小型化语言模型提供了新的思路。
📄 摘要(原文)
Disorganized thinking is a key diagnostic indicator of schizophrenia-spectrum disorders. Recently, clinical estimates of the severity of disorganized thinking have been shown to correlate with measures of how difficult speech transcripts would be for large language models (LLMs) to predict. However, LLMs' deployment challenges -- including privacy concerns, computational and financial costs, and lack of transparency of training data -- limit their clinical utility. We investigate whether smaller neural language models can serve as effective alternatives for detecting positive formal thought disorder, using the same sliding window based perplexity measurements that proved effective with larger models. Surprisingly, our results show that smaller models are more sensitive to linguistic differences associated with formal thought disorder than their larger counterparts. Detection capability declines beyond a certain model size and context length, challenging the common assumption of ``bigger is better'' for LLM-based applications. Our findings generalize across audio diaries and clinical interview speech samples from individuals with psychotic symptoms, suggesting a promising direction for developing efficient, cost-effective, and privacy-preserving screening tools that can be deployed in both clinical and naturalistic settings.