Speech-based Psychological Crisis Assessment using LLMs
作者: Terumi Chiba, Yang Luo, Ziyun Cui, Yongsheng Tong, Chao Zhang
分类: cs.CL, cs.AI
发布日期: 2026-05-11
备注: 5 pages, 5 figures
💡 一句话要点
提出基于大语言模型的语音心理危机评估框架,通过副语言注入与推理增强提升分类性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 心理危机评估 副语言注入 多模态融合 推理增强训练 情感计算 自然语言处理
📋 核心要点
- 现有心理危机评估高度依赖人工,存在主观性强、专业经验差异大及人力资源严重短缺等挑战。
- 提出副语言注入与推理增强训练策略,将声学情感线索融入文本,并利用诊断推理链提升模型决策能力。
- 实验结果表明,该方法在危机等级三分类任务中实现了0.802的宏平均F1分数,有效提升了自动化评估的准确性。
📝 摘要(中文)
心理支持热线为心理健康紧急情况下的个人提供关键支持,但目前的评估主要依赖人工操作员,其判断受专业经验影响且受限于人力资源。本文提出了一种基于大语言模型(LLM)的自动化危机等级分类框架,这是支持下游任务并提升热线服务质量的关键指标。为了更好地捕捉口语对话中的情感信号,我们引入了一种副语言注入方法,将识别出的非语言情感线索插入到语音转录文本中,使基于LLM的推理能够整合关键的声学细微差别。此外,我们提出了一种推理增强训练策略,通过将生成诊断推理链作为辅助任务,作为正则化手段提升分类性能。结合数据增强,我们的系统在三分类任务的5折交叉验证中达到了0.802的宏平均F1分数和0.805的准确率。
🔬 方法详解
问题定义:论文旨在解决心理危机热线中人工评估效率低、一致性差的问题,重点在于如何利用大语言模型从语音对话中准确识别危机等级,并克服纯文本分析丢失声学情感信息的局限。
核心思路:通过多模态特征融合与思维链(Chain-of-Thought)引导,将非语言的声学特征转化为文本描述注入LLM,并强制模型生成诊断推理过程,从而实现更具可解释性和准确性的危机评估。
技术框架:系统包含三个核心阶段:首先是副语言特征提取与注入,将声学情感线索转化为文本标记;其次是基于LLM的推理增强训练,将危机等级分类与诊断推理链生成联合建模;最后通过数据增强技术提升模型在有限标注数据下的泛化能力。
关键创新:创新性地提出了“副语言注入”机制,将声学细微差别显式地转化为文本上下文,弥补了LLM在处理语音对话时缺乏情感韵律感知的缺陷;同时引入推理链作为正则化手段,约束模型关注诊断逻辑。
关键设计:采用多任务学习范式,将分类任务与推理生成任务结合;通过特定的Prompt工程引导模型生成诊断推理链,并利用该推理链作为辅助损失函数,引导模型学习更鲁棒的特征表示,从而提升分类性能。
🖼️ 关键图片
📊 实验亮点
实验在危机等级三分类任务上表现出色,通过5折交叉验证,系统达到了0.802的宏平均F1分数和0.805的准确率。研究证明了副语言注入与推理增强训练策略的有效性,相比于仅使用文本输入的基线模型,该方法在捕捉复杂情感与危机信号方面具有显著优势,为自动化心理健康评估提供了强有力的技术支撑。
🎯 应用场景
该研究可直接应用于心理健康热线与危机干预中心,作为辅助决策系统实时评估来电者的危机等级,从而优化资源分配,确保高危人群获得优先响应。此外,该技术还可扩展至远程医疗、在线心理咨询及智能客服领域,提升对用户情绪状态的精准感知与干预能力。
📄 摘要(原文)
Psychological support hotlines provide critical support for individuals experiencing mental health emergencies, yet current assessments largely rely on human operators whose judgments may vary with professional experience and are constrained by limited staffing resources. This paper proposes a large language model (LLM)-based framework for automated crisis level classification, a key indicator that supports many downstream tasks and improves the overall quality of hotline services. To better capture emotional signals in spoken conversations, we introduce a paralinguistic injection method that inserts identified non-verbal emotional cues into speech transcripts, enabling LLM-based reasoning to incorporate critical acoustic nuances. In addition, we propose a reasoning-enhanced training strategy that trains the model to generate diagnostic reasoning chains as an auxiliary task, which serves as a regulariser to improve classification performance. Combined with data augmentation, our final system achieves a macro F1-score of 0.802 and an accuracy of 0.805 on the three-class classification task under 5-fold cross-validation.