Suicide Risk Assessment Using Multimodal Speech Features: A Study on the SW1 Challenge Dataset

作者: Ambre Marie, Ilias Maoudj, Guillaume Dardenne, Gwenolé Quellec

分类: cs.CL, cs.LG, cs.SD, eess.AS

发布日期: 2025-05-19

备注: Submitted to the SpeechWellness Challenge at Interspeech 2025; 5 pages, 2 figures, 2 tables

💡 一句话要点

利用多模态语音特征进行自杀风险评估，基于SW1挑战数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自杀风险评估 多模态融合 语音特征 自然语言处理 深度学习

📋 核心要点

现有语音自杀风险评估方法在泛化能力和特征融合方面存在不足，难以适应真实场景。
提出一种多模态融合方法，结合自动语音转录、语言嵌入、音频嵌入和手工声学特征，提升评估准确性。
实验表明，加权注意力融合策略表现最佳，但在开发集和测试集上存在性能差距，仍需进一步优化。

📝 摘要（中文）

本研究针对第一届SpeechWellness挑战赛中青少年基于语音的自杀风险评估需求，提出了一种多模态方法。该方法融合了WhisperX的自动转录文本、中文RoBERTa的语言嵌入、WavLM的音频嵌入，以及手工设计的声学特征，包括MFCC、谱对比和音高相关统计。研究探索了三种融合策略：早期拼接、模态特定处理和带Mixup正则化的加权注意力机制。结果表明，加权注意力机制提供了最佳的泛化能力，在开发集上达到了69%的准确率。然而，开发集和测试集之间的性能差距突显了泛化挑战。研究结果严格基于MINI-KID框架，强调了改进嵌入表示和融合机制以提高分类可靠性的重要性。

🔬 方法详解

问题定义：论文旨在解决青少年自杀风险评估问题，利用语音信息进行自动化的风险预测。现有方法可能依赖单一模态特征，或特征融合方式不够有效，导致泛化能力不足，难以在真实场景中可靠应用。

核心思路：论文的核心思路是融合多种模态的语音特征，包括自动转录的文本信息、预训练语言模型的嵌入表示、预训练音频模型的嵌入表示以及手工设计的声学特征。通过多模态信息的互补，提升自杀风险评估的准确性和鲁棒性。

技术框架：整体框架包括以下几个主要模块：1) 语音转录模块，使用WhisperX将语音转换为文本；2) 语言嵌入模块，使用中文RoBERTa提取文本的语言特征；3) 音频嵌入模块，使用WavLM提取音频的声学特征；4) 手工特征提取模块，提取MFCC、谱对比和音高相关统计等声学特征；5) 特征融合模块，探索早期拼接、模态特定处理和加权注意力机制等融合策略；6) 分类器，基于融合后的特征进行自杀风险评估。

关键创新：论文的关键创新在于多模态特征的融合策略，特别是带Mixup正则化的加权注意力机制。这种机制能够自适应地学习不同模态特征的重要性，并利用Mixup正则化提升模型的泛化能力。此外，结合了预训练模型（RoBERTa和WavLM）和手工设计的声学特征，充分利用了不同类型的信息。

关键设计：在加权注意力机制中，每个模态的特征都会被赋予一个权重，该权重由注意力网络学习得到。Mixup正则化通过对输入特征和标签进行线性插值来生成新的训练样本，从而提高模型的鲁棒性。具体参数设置和网络结构在论文中可能未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，带Mixup正则化的加权注意力机制在开发集上达到了69%的准确率，优于其他融合策略。然而，开发集和测试集之间的性能差距表明，模型在泛化能力方面仍有提升空间。未来的研究可以关注更有效的特征表示学习和融合方法，以提高模型的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于在线心理健康咨询平台、智能语音助手等场景，实现对青少年自杀风险的早期筛查和干预。通过自动分析语音信息，可以及时发现潜在的风险个体，并提供个性化的心理支持，具有重要的社会价值和临床意义。

📄 摘要（原文）

The 1st SpeechWellness Challenge conveys the need for speech-based suicide risk assessment in adolescents. This study investigates a multimodal approach for this challenge, integrating automatic transcription with WhisperX, linguistic embeddings from Chinese RoBERTa, and audio embeddings from WavLM. Additionally, handcrafted acoustic features -- including MFCCs, spectral contrast, and pitch-related statistics -- were incorporated. We explored three fusion strategies: early concatenation, modality-specific processing, and weighted attention with mixup regularization. Results show that weighted attention provided the best generalization, achieving 69% accuracy on the development set, though a performance gap between development and test sets highlights generalization challenges. Our findings, strictly tied to the MINI-KID framework, emphasize the importance of refining embedding representations and fusion mechanisms to enhance classification reliability.

Suicide Risk Assessment Using Multimodal Speech Features: A Study on the SW1 Challenge Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理