A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context

📄 arXiv: 2501.06859v1 📥 PDF

作者: Noureldin Zahran, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda

分类: cs.CL, cs.AI

发布日期: 2025-01-12


💡 一句话要点

评估大型语言模型在阿拉伯语环境下心理健康疾病诊断的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理健康 阿拉伯语 提示工程 少样本学习

📋 核心要点

  1. 阿拉伯语心理健康资源匮乏,现有方法难以有效诊断和干预,面临语言和文化障碍。
  2. 通过优化提示、多语言分析和少样本学习,探索LLM在阿拉伯语心理健康诊断中的潜力。
  3. 实验表明,提示工程、模型选择和少样本学习显著影响LLM性能,为实际应用提供指导。

📝 摘要(中文)

心理健康障碍在阿拉伯世界日益成为一个公共健康问题,因此需要易于使用的诊断和干预工具。大型语言模型(LLM)提供了一种有前景的方法,但其在阿拉伯语环境中的应用面临着包括有限的标记数据集、语言复杂性和翻译偏差等挑战。本研究全面评估了8个LLM,包括通用多语言模型和双语模型,在不同的心理健康数据集(如AraDepSu、Dreaddit、MedMCQA)上,研究了提示设计、语言配置(原生阿拉伯语与翻译的英语,反之亦然)以及少样本提示对诊断性能的影响。研究发现,提示工程显著影响LLM的得分,主要是由于指令遵循的减少。结构化提示在多分类数据集上优于结构化程度较低的变体,平均差异为14.5%。虽然语言对性能的影响不大,但模型选择至关重要:Phi-3.5 MoE在平衡准确率方面表现出色,尤其是在二元分类中,而Mistral NeMo在严重程度预测任务的平均绝对误差方面表现更优。少样本提示始终提高性能,GPT-4o Mini在多分类中表现出显著提升,准确率平均提高了1.58倍。这些发现强调了提示优化、多语言分析和少样本学习对于开发文化敏感且有效的基于LLM的阿拉伯语人群心理健康工具的重要性。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在阿拉伯语环境下心理健康疾病诊断中的性能。现有方法在阿拉伯语环境中面临数据稀缺、语言复杂性和文化差异等挑战,导致诊断准确率不高,难以满足实际需求。

核心思路:论文的核心思路是通过系统性的实验,研究不同LLM、提示策略、语言配置和少样本学习方法对阿拉伯语心理健康诊断性能的影响。通过对比分析,找出最适合该场景的模型和方法,为开发有效的阿拉伯语心理健康工具提供指导。

技术框架:该研究的技术框架主要包括以下几个部分:1) 数据集准备:使用AraDepSu、Dreaddit、MedMCQA等心理健康数据集。2) 模型选择:选择包括通用多语言模型和双语模型在内的8个LLM。3) 提示工程:设计结构化和非结构化两种提示,并进行对比。4) 语言配置:测试原生阿拉伯语和翻译的英语两种语言配置。5) 少样本学习:探索不同数量的少样本示例对模型性能的影响。6) 性能评估:使用平衡准确率、平均绝对误差等指标评估模型性能。

关键创新:该研究的关键创新在于:1) 首次系统性地评估了多种LLM在阿拉伯语心理健康诊断中的性能。2) 深入研究了提示工程、语言配置和少样本学习对模型性能的影响。3) 提出了针对阿拉伯语心理健康诊断的优化策略,例如使用结构化提示和选择合适的模型。

关键设计:在提示工程方面,设计了结构化提示,明确指定任务、输入和输出格式,以提高模型的指令遵循能力。在少样本学习方面,探索了不同数量的少样本示例,以找到最佳的平衡点。在模型选择方面,考虑了模型的语言能力、推理能力和计算成本等因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提示工程对LLM性能有显著影响,结构化提示优于非结构化提示,平均提升14.5%。模型选择至关重要,Phi-3.5 MoE在二元分类中表现出色,Mistral NeMo在严重程度预测中表现更优。少样本学习能有效提升性能,GPT-4o Mini在多分类中准确率提升了1.58倍。

🎯 应用场景

该研究成果可应用于开发基于LLM的阿拉伯语心理健康诊断和干预工具,例如在线心理健康咨询平台、自动化的心理健康评估系统等。这些工具可以提高心理健康服务的可及性,尤其是在资源匮乏的地区,并为临床医生提供辅助诊断支持。未来,该研究可以扩展到其他阿拉伯语相关的自然语言处理任务,例如情感分析、文本摘要等。

📄 摘要(原文)

Mental health disorders pose a growing public health concern in the Arab world, emphasizing the need for accessible diagnostic and intervention tools. Large language models (LLMs) offer a promising approach, but their application in Arabic contexts faces challenges including limited labeled datasets, linguistic complexity, and translation biases. This study comprehensively evaluates 8 LLMs, including general multi-lingual models, as well as bi-lingual ones, on diverse mental health datasets (such as AraDepSu, Dreaddit, MedMCQA), investigating the impact of prompt design, language configuration (native Arabic vs. translated English, and vice versa), and few-shot prompting on diagnostic performance. We find that prompt engineering significantly influences LLM scores mainly due to reduced instruction following, with our structured prompt outperforming a less structured variant on multi-class datasets, with an average difference of 14.5\%. While language influence on performance was modest, model selection proved crucial: Phi-3.5 MoE excelled in balanced accuracy, particularly for binary classification, while Mistral NeMo showed superior performance in mean absolute error for severity prediction tasks. Few-shot prompting consistently improved performance, with particularly substantial gains observed for GPT-4o Mini on multi-class classification, boosting accuracy by an average factor of 1.58. These findings underscore the importance of prompt optimization, multilingual analysis, and few-shot learning for developing culturally sensitive and effective LLM-based mental health tools for Arabic-speaking populations.