Suicide Risk Assessment Using Multimodal Speech Features: A Study on the SW1 Challenge Dataset
作者: Ambre Marie, Ilias Maoudj, Guillaume Dardenne, Gwenolé Quellec
分类: cs.CL, cs.LG, cs.SD, eess.AS
发布日期: 2025-05-19
备注: Submitted to the SpeechWellness Challenge at Interspeech 2025; 5 pages, 2 figures, 2 tables
💡 一句话要点
利用多模态语音特征进行自杀风险评估,基于SW1挑战数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自杀风险评估 多模态融合 语音特征 自然语言处理 深度学习
📋 核心要点
- 现有语音自杀风险评估方法在泛化能力和特征融合方面存在不足,难以适应真实场景。
- 提出一种多模态融合方法,结合自动语音转录、语言嵌入、音频嵌入和手工声学特征,提升评估准确性。
- 实验表明,加权注意力融合策略表现最佳,但在开发集和测试集上存在性能差距,仍需进一步优化。
📝 摘要(中文)
本研究针对第一届SpeechWellness挑战赛中青少年基于语音的自杀风险评估需求,提出了一种多模态方法。该方法融合了WhisperX的自动转录文本、中文RoBERTa的语言嵌入、WavLM的音频嵌入,以及手工设计的声学特征,包括MFCC、谱对比和音高相关统计。研究探索了三种融合策略:早期拼接、模态特定处理和带Mixup正则化的加权注意力机制。结果表明,加权注意力机制提供了最佳的泛化能力,在开发集上达到了69%的准确率。然而,开发集和测试集之间的性能差距突显了泛化挑战。研究结果严格基于MINI-KID框架,强调了改进嵌入表示和融合机制以提高分类可靠性的重要性。
🔬 方法详解
问题定义:论文旨在解决青少年自杀风险评估问题,利用语音信息进行自动化的风险预测。现有方法可能依赖单一模态特征,或特征融合方式不够有效,导致泛化能力不足,难以在真实场景中可靠应用。
核心思路:论文的核心思路是融合多种模态的语音特征,包括自动转录的文本信息、预训练语言模型的嵌入表示、预训练音频模型的嵌入表示以及手工设计的声学特征。通过多模态信息的互补,提升自杀风险评估的准确性和鲁棒性。
技术框架:整体框架包括以下几个主要模块:1) 语音转录模块,使用WhisperX将语音转换为文本;2) 语言嵌入模块,使用中文RoBERTa提取文本的语言特征;3) 音频嵌入模块,使用WavLM提取音频的声学特征;4) 手工特征提取模块,提取MFCC、谱对比和音高相关统计等声学特征;5) 特征融合模块,探索早期拼接、模态特定处理和加权注意力机制等融合策略;6) 分类器,基于融合后的特征进行自杀风险评估。
关键创新:论文的关键创新在于多模态特征的融合策略,特别是带Mixup正则化的加权注意力机制。这种机制能够自适应地学习不同模态特征的重要性,并利用Mixup正则化提升模型的泛化能力。此外,结合了预训练模型(RoBERTa和WavLM)和手工设计的声学特征,充分利用了不同类型的信息。
关键设计:在加权注意力机制中,每个模态的特征都会被赋予一个权重,该权重由注意力网络学习得到。Mixup正则化通过对输入特征和标签进行线性插值来生成新的训练样本,从而提高模型的鲁棒性。具体参数设置和网络结构在论文中可能未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,带Mixup正则化的加权注意力机制在开发集上达到了69%的准确率,优于其他融合策略。然而,开发集和测试集之间的性能差距表明,模型在泛化能力方面仍有提升空间。未来的研究可以关注更有效的特征表示学习和融合方法,以提高模型的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于在线心理健康咨询平台、智能语音助手等场景,实现对青少年自杀风险的早期筛查和干预。通过自动分析语音信息,可以及时发现潜在的风险个体,并提供个性化的心理支持,具有重要的社会价值和临床意义。
📄 摘要(原文)
The 1st SpeechWellness Challenge conveys the need for speech-based suicide risk assessment in adolescents. This study investigates a multimodal approach for this challenge, integrating automatic transcription with WhisperX, linguistic embeddings from Chinese RoBERTa, and audio embeddings from WavLM. Additionally, handcrafted acoustic features -- including MFCCs, spectral contrast, and pitch-related statistics -- were incorporated. We explored three fusion strategies: early concatenation, modality-specific processing, and weighted attention with mixup regularization. Results show that weighted attention provided the best generalization, achieving 69% accuracy on the development set, though a performance gap between development and test sets highlights generalization challenges. Our findings, strictly tied to the MINI-KID framework, emphasize the importance of refining embedding representations and fusion mechanisms to enhance classification reliability.