Spontaneous Speech-Based Suicide Risk Detection Using Whisper and Large Language Models
作者: Ziyun Cui, Chang Lei, Wen Wu, Yinan Duan, Diyang Qu, Ji Wu, Runsen Chen, Chao Zhang
分类: cs.CL, cs.SD, eess.AS
发布日期: 2024-06-06 (更新: 2024-07-09)
备注: Accepted by Interspeech 2024
DOI: 10.21437/Interspeech.2024-1895
💡 一句话要点
利用Whisper和LLM进行基于语音的青少年自杀风险预测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自杀风险检测 语音识别 大型语言模型 音频文本融合 青少年心理健康
📋 核心要点
- 现有自杀风险检测方法缺乏对青少年自发性语音中声学和语言特征的有效利用,限制了检测精度。
- 本研究提出结合Whisper语音模型和大型语言模型,通过音频-文本融合的方式,提升自杀风险检测性能。
- 实验结果表明,该方法在青少年自杀语音数据集上取得了显著的检测准确率和F1分数,验证了其有效性。
📝 摘要(中文)
本研究旨在通过分析青少年自发性语音来自动检测自杀风险,以便及早干预,防止潜在的自杀行为。为此,我们收集了一个包含一千多名10至18岁青少年共15小时自杀语音的中文数据集。为了充分利用自发性语音中蕴含的声学和语言特征,我们同时采用了Whisper语音模型和文本大型语言模型(LLM)进行自杀风险检测。我们使用了全参数微调和参数高效微调方法来调整预训练模型,并评估了多种音频-文本融合方法,以结合Whisper和LLM的表征。实验结果表明,该系统在包含119名受试者的测试集上实现了0.807的检测准确率和0.846的F1分数,表明其在实际自杀风险检测应用中具有良好的潜力。
🔬 方法详解
问题定义:本论文旨在解决青少年自杀风险的早期自动检测问题。现有方法在处理自发性语音时,难以有效提取和融合语音中的声学特征和文本语义信息,导致检测精度不高。此外,缺乏针对青少年自杀语音的专用数据集也限制了相关研究的进展。
核心思路:论文的核心思路是利用Whisper语音模型提取语音中的声学特征,并使用大型语言模型(LLM)理解语音转录文本的语义信息。通过音频-文本融合,综合利用两种模态的信息,从而更准确地判断自杀风险。这种方法旨在克服传统方法在处理自发性语音时的局限性。
技术框架:整体框架包括以下几个主要步骤:1) 数据收集:构建包含青少年自杀语音的中文数据集。2) 语音转录:使用Whisper模型将语音转换为文本。3) 文本编码:使用LLM对转录文本进行编码,提取语义特征。4) 特征融合:将Whisper模型提取的声学特征和LLM提取的文本特征进行融合。5) 分类:使用分类器(如全连接网络)基于融合后的特征进行自杀风险预测。
关键创新:本研究的关键创新在于:1) 同时利用了Whisper语音模型和大型语言模型,充分挖掘了语音中的声学和语言信息。2) 探索了多种音频-文本融合方法,以有效结合两种模态的特征。3) 构建了一个专门用于青少年自杀风险检测的中文语音数据集。
关键设计:在模型训练方面,采用了全参数微调和参数高效微调两种策略,以适应自杀风险检测任务。在特征融合方面,评估了多种融合方法,例如拼接、加权平均等。损失函数采用交叉熵损失函数,优化器采用AdamW。具体的网络结构和参数设置在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该系统在包含119名受试者的测试集上实现了0.807的检测准确率和0.846的F1分数。这些结果表明,该方法在青少年自杀风险检测方面具有良好的性能,并优于现有的基于单一模态的方法(具体对比基线未知)。该研究为基于语音的自杀风险检测提供了一个有前景的解决方案。
🎯 应用场景
该研究成果可应用于在线心理咨询平台、智能客服系统等场景,实现对青少年自杀风险的早期预警和干预。通过自动分析青少年的语音,可以及时发现潜在的自杀倾向,并提供相应的心理支持和帮助,从而降低青少年自杀率。未来,该技术还可以扩展到其他心理健康问题的检测和干预。
📄 摘要(原文)
The early detection of suicide risk is important since it enables the intervention to prevent potential suicide attempts. This paper studies the automatic detection of suicide risk based on spontaneous speech from adolescents, and collects a Mandarin dataset with 15 hours of suicide speech from more than a thousand adolescents aged from ten to eighteen for our experiments. To leverage the diverse acoustic and linguistic features embedded in spontaneous speech, both the Whisper speech model and textual large language models (LLMs) are used for suicide risk detection. Both all-parameter finetuning and parameter-efficient finetuning approaches are used to adapt the pre-trained models for suicide risk detection, and multiple audio-text fusion approaches are evaluated to combine the representations of Whisper and the LLM. The proposed system achieves a detection accuracy of 0.807 and an F1-score of 0.846 on the test set with 119 subjects, indicating promising potential for real suicide risk detection applications.