A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context

作者: Noureldin Zahran, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda

分类: cs.CL, cs.AI

发布日期: 2025-01-12

💡 一句话要点

评估大型语言模型在阿拉伯语环境下心理健康疾病诊断的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理健康 阿拉伯语 提示工程 少样本学习

📋 核心要点

阿拉伯语心理健康资源匮乏，现有方法难以有效诊断和干预，面临语言和文化障碍。
通过优化提示、多语言分析和少样本学习，探索LLM在阿拉伯语心理健康诊断中的潜力。
实验表明，提示工程、模型选择和少样本学习显著影响LLM性能，为实际应用提供指导。

📝 摘要（中文）

心理健康障碍在阿拉伯世界日益成为一个公共健康问题，因此需要易于使用的诊断和干预工具。大型语言模型（LLM）提供了一种有前景的方法，但其在阿拉伯语环境中的应用面临着包括有限的标记数据集、语言复杂性和翻译偏差等挑战。本研究全面评估了8个LLM，包括通用多语言模型和双语模型，在不同的心理健康数据集（如AraDepSu、Dreaddit、MedMCQA）上，研究了提示设计、语言配置（原生阿拉伯语与翻译的英语，反之亦然）以及少样本提示对诊断性能的影响。研究发现，提示工程显著影响LLM的得分，主要是由于指令遵循的减少。结构化提示在多分类数据集上优于结构化程度较低的变体，平均差异为14.5%。虽然语言对性能的影响不大，但模型选择至关重要：Phi-3.5 MoE在平衡准确率方面表现出色，尤其是在二元分类中，而Mistral NeMo在严重程度预测任务的平均绝对误差方面表现更优。少样本提示始终提高性能，GPT-4o Mini在多分类中表现出显著提升，准确率平均提高了1.58倍。这些发现强调了提示优化、多语言分析和少样本学习对于开发文化敏感且有效的基于LLM的阿拉伯语人群心理健康工具的重要性。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在阿拉伯语环境下心理健康疾病诊断中的性能。现有方法在阿拉伯语环境中面临数据稀缺、语言复杂性和文化差异等挑战，导致诊断准确率不高，难以满足实际需求。

核心思路：论文的核心思路是通过系统性的实验，研究不同LLM、提示策略、语言配置和少样本学习方法对阿拉伯语心理健康诊断性能的影响。通过对比分析，找出最适合该场景的模型和方法，为开发有效的阿拉伯语心理健康工具提供指导。

技术框架：该研究的技术框架主要包括以下几个部分：1) 数据集准备：使用AraDepSu、Dreaddit、MedMCQA等心理健康数据集。2) 模型选择：选择包括通用多语言模型和双语模型在内的8个LLM。3) 提示工程：设计结构化和非结构化两种提示，并进行对比。4) 语言配置：测试原生阿拉伯语和翻译的英语两种语言配置。5) 少样本学习：探索不同数量的少样本示例对模型性能的影响。6) 性能评估：使用平衡准确率、平均绝对误差等指标评估模型性能。

关键创新：该研究的关键创新在于：1) 首次系统性地评估了多种LLM在阿拉伯语心理健康诊断中的性能。2) 深入研究了提示工程、语言配置和少样本学习对模型性能的影响。3) 提出了针对阿拉伯语心理健康诊断的优化策略，例如使用结构化提示和选择合适的模型。

关键设计：在提示工程方面，设计了结构化提示，明确指定任务、输入和输出格式，以提高模型的指令遵循能力。在少样本学习方面，探索了不同数量的少样本示例，以找到最佳的平衡点。在模型选择方面，考虑了模型的语言能力、推理能力和计算成本等因素。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提示工程对LLM性能有显著影响，结构化提示优于非结构化提示，平均提升14.5%。模型选择至关重要，Phi-3.5 MoE在二元分类中表现出色，Mistral NeMo在严重程度预测中表现更优。少样本学习能有效提升性能，GPT-4o Mini在多分类中准确率提升了1.58倍。

🎯 应用场景

该研究成果可应用于开发基于LLM的阿拉伯语心理健康诊断和干预工具，例如在线心理健康咨询平台、自动化的心理健康评估系统等。这些工具可以提高心理健康服务的可及性，尤其是在资源匮乏的地区，并为临床医生提供辅助诊断支持。未来，该研究可以扩展到其他阿拉伯语相关的自然语言处理任务，例如情感分析、文本摘要等。

📄 摘要（原文）

Mental health disorders pose a growing public health concern in the Arab world, emphasizing the need for accessible diagnostic and intervention tools. Large language models (LLMs) offer a promising approach, but their application in Arabic contexts faces challenges including limited labeled datasets, linguistic complexity, and translation biases. This study comprehensively evaluates 8 LLMs, including general multi-lingual models, as well as bi-lingual ones, on diverse mental health datasets (such as AraDepSu, Dreaddit, MedMCQA), investigating the impact of prompt design, language configuration (native Arabic vs. translated English, and vice versa), and few-shot prompting on diagnostic performance. We find that prompt engineering significantly influences LLM scores mainly due to reduced instruction following, with our structured prompt outperforming a less structured variant on multi-class datasets, with an average difference of 14.5\%. While language influence on performance was modest, model selection proved crucial: Phi-3.5 MoE excelled in balanced accuracy, particularly for binary classification, while Mistral NeMo showed superior performance in mean absolute error for severity prediction tasks. Few-shot prompting consistently improved performance, with particularly substantial gains observed for GPT-4o Mini on multi-class classification, boosting accuracy by an average factor of 1.58. These findings underscore the importance of prompt optimization, multilingual analysis, and few-shot learning for developing culturally sensitive and effective LLM-based mental health tools for Arabic-speaking populations.

A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理