Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance

作者: Abdelrahman A. Ali, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2024-12-09 (更新: 2025-08-13)

💡 一句话要点

利用LLM融合语音和文本模态提升心理健康诊断，在抑郁症和PTSD检测中表现出潜力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心理健康诊断 多模态融合 大型语言模型 零样本学习 抑郁症检测 创伤后应激障碍 语音分析 文本分析

📋 核心要点

心理健康问题日益严重，现有诊断工具在早期诊断和干预方面存在不足，亟需创新方法。
本研究探索利用大型语言模型（LLM）融合文本和音频模态，以提升抑郁症和PTSD的诊断准确性。
实验结果表明，融合模态可以显著提高LLM在心理健康诊断任务中的性能，尤其是在零样本场景下。

📝 摘要（中文）

本研究探讨了大型语言模型（LLM）在多模态心理健康诊断中的潜力，特别是通过文本和音频模态检测抑郁症和创伤后应激障碍（PTSD）。使用E-DAIC数据集，比较了文本和音频模态，以研究LLM在音频输入下是否能达到同等或更好的性能。进一步研究了两种模态的整合是否可以提高诊断准确性，结果表明通常可以改善性能指标。分析中使用了自定义指标：模态优势得分和分歧解决得分，以评估组合模态如何影响模型性能。Gemini 1.5 Pro模型在使用组合模态进行二元抑郁症分类时获得了最高分，F1得分为0.67，平衡准确率（BA）为77.4%。这些结果比文本模态提高了3.1%，比音频模态提高了2.7%，突出了整合模态以提高诊断准确性的有效性。所有结果均在零样本推理中获得，无需特定任务的微调，突出了模型的鲁棒性。研究还探讨了不同配置对模型性能的影响，使用零样本和少样本提示执行二元、严重程度和多类任务，检查提示变化对性能的影响。结果表明，Gemini 1.5 Pro（文本和音频模态）和GPT-4o mini（文本模态）等模型在多个任务中的平衡准确率和F1得分通常优于其他模型。

🔬 方法详解

问题定义：本研究旨在解决心理健康诊断中，单一模态信息不足的问题。现有方法通常依赖于文本或音频数据，忽略了多模态信息融合的潜力，导致诊断准确率受限。此外，现有方法往往需要大量的标注数据进行训练，泛化能力较弱。

核心思路：本研究的核心思路是利用大型语言模型（LLM）强大的多模态理解能力，将文本和音频信息进行有效融合，从而提升心理健康诊断的准确性和鲁棒性。通过自定义的模态优势得分和分歧解决得分，量化评估多模态融合带来的性能提升。

技术框架：整体框架包括数据预处理、特征提取、LLM推理和结果评估四个主要阶段。首先，对E-DAIC数据集中的文本和音频数据进行预处理。然后，利用LLM（如Gemini 1.5 Pro和GPT-4o mini）对文本和音频数据进行特征提取和推理。最后，使用F1得分和平衡准确率等指标评估模型的性能，并使用自定义指标分析多模态融合的效果。

关键创新：本研究的关键创新在于：1) 探索了LLM在多模态心理健康诊断中的应用潜力；2) 提出了模态优势得分和分歧解决得分等自定义指标，用于量化评估多模态融合的效果；3) 在零样本场景下取得了显著的性能提升，表明LLM具有较强的泛化能力。

关键设计：研究中使用了Gemini 1.5 Pro和GPT-4o mini等先进的LLM模型。针对不同的诊断任务（二元分类、严重程度评估和多类分类），设计了不同的提示（prompt），包括零样本提示和少样本提示。通过比较不同提示和不同模型的性能，分析了模型在不同配置下的表现。

🖼️ 关键图片

📊 实验亮点

Gemini 1.5 Pro模型在使用组合模态进行二元抑郁症分类时，F1得分为0.67，平衡准确率（BA）为77.4%，比单独使用文本模态提高了3.1%，比单独使用音频模态提高了2.7%。所有结果均在零样本推理中获得，无需特定任务的微调，突出了模型的鲁棒性。

🎯 应用场景

该研究成果可应用于开发智能心理健康辅助诊断系统，为医生提供更准确、全面的诊断信息，辅助早期发现和干预心理健康问题。此外，该技术还可用于远程心理健康咨询、在线心理健康评估等场景，提高心理健康服务的可及性和效率，具有广阔的应用前景。

📄 摘要（原文）

Mental health disorders are increasingly prevalent worldwide, creating an urgent need for innovative tools to support early diagnosis and intervention. This study explores the potential of Large Language Models (LLMs) in multimodal mental health diagnostics, specifically for detecting depression and Post Traumatic Stress Disorder through text and audio modalities. Using the E-DAIC dataset, we compare text and audio modalities to investigate whether LLMs can perform equally well or better with audio inputs. We further examine the integration of both modalities to determine if this can enhance diagnostic accuracy, which generally results in improved performance metrics. Our analysis specifically utilizes custom-formulated metrics; Modal Superiority Score and Disagreement Resolvement Score to evaluate how combined modalities influence model performance. The Gemini 1.5 Pro model achieves the highest scores in binary depression classification when using the combined modality, with an F1 score of 0.67 and a Balanced Accuracy (BA) of 77.4%, assessed across the full dataset. These results represent an increase of 3.1% over its performance with the text modality and 2.7% over the audio modality, highlighting the effectiveness of integrating modalities to enhance diagnostic accuracy. Notably, all results are obtained in zero-shot inferring, highlighting the robustness of the models without requiring task-specific fine-tuning. To explore the impact of different configurations on model performance, we conduct binary, severity, and multiclass tasks using both zero-shot and few-shot prompts, examining the effects of prompt variations on performance. The results reveal that models such as Gemini 1.5 Pro in text and audio modalities, and GPT-4o mini in the text modality, often surpass other models in balanced accuracy and F1 scores across multiple tasks.

Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理