Large Language Models for Mental Health: A Multilingual Evaluation

📄 arXiv: 2602.02440v1 📥 PDF

作者: Nishat Raihan, Sadiya Sayara Chowdhury Puspo, Ana-Maria Bucur, Stevie Chancellor, Marcos Zampieri

分类: cs.CL

发布日期: 2026-02-02


💡 一句话要点

多语言心理健康领域:评估大型语言模型性能与翻译质量影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多语言处理 心理健康 机器翻译 性能评估

📋 核心要点

  1. 现有研究对LLM在多语言心理健康领域的性能评估不足,尤其缺乏对翻译质量影响的深入分析。
  2. 论文核心在于评估不同LLM在多种语言心理健康数据集上的表现,并分析机器翻译质量对模型性能的影响。
  3. 实验结果表明,专有LLM和微调的开源LLM在部分数据集上超越了现有技术,但机器翻译数据上的性能有所下降。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言处理任务中表现出卓越的能力。然而,它们在多语言环境下的性能,尤其是在心理健康领域,尚未得到充分探索。本文评估了专有和开源LLMs在八个不同语言的心理健康数据集以及它们的机器翻译(MT)版本上的表现。我们将LLMs在零样本、少样本和微调设置下的性能与不使用LLMs的传统NLP基线进行比较。此外,我们评估了跨语言家族和语系的翻译质量,以了解其对LLM性能的影响。专有LLMs和微调的开源LLMs在多个数据集上取得了具有竞争力的F1分数,通常超过了最先进的结果。然而,在MT数据上的性能通常较低,并且这种下降的程度因语言和语系而异。这种差异突出了LLMs在处理英语以外的语言的心理健康任务方面的优势,以及当翻译质量引入结构或词汇不匹配时的局限性。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在多语言心理健康领域的性能。现有方法主要集中在英语数据集上,忽略了其他语言,并且缺乏对机器翻译质量对LLM性能影响的系统性研究。现有方法在处理非英语心理健康文本时,可能由于语言差异和翻译质量问题而表现不佳。

核心思路:论文的核心思路是系统性地评估不同类型的LLMs(包括专有和开源模型)在多种语言的心理健康数据集上的表现,并分析机器翻译质量对模型性能的影响。通过对比LLMs在原始数据和机器翻译数据上的表现,揭示LLMs在处理不同语言和翻译质量的文本时的优势和局限性。

技术框架:论文的整体框架包括以下几个主要阶段:1) 数据收集:收集八个不同语言的心理健康数据集。2) 模型选择:选择专有LLMs(如GPT系列)和开源LLMs(如LLaMA系列)。3) 实验设置:在零样本、少样本和微调设置下评估LLMs的性能。4) 机器翻译:使用机器翻译系统将非英语数据集翻译成英语。5) 性能评估:使用F1分数等指标评估LLMs在原始数据和机器翻译数据上的性能。6) 翻译质量评估:评估机器翻译的质量,并分析其对LLM性能的影响。

关键创新:论文的关键创新在于:1) 系统性地评估了LLMs在多语言心理健康领域的性能,填补了现有研究的空白。2) 分析了机器翻译质量对LLM性能的影响,揭示了LLMs在处理不同语言和翻译质量的文本时的优势和局限性。3) 对比了专有LLMs和开源LLMs的性能,为研究人员和开发者提供了有价值的参考。

关键设计:论文的关键设计包括:1) 选择了具有代表性的心理健康数据集,覆盖了多种语言和语系。2) 采用了多种评估指标,包括F1分数等,以全面评估LLMs的性能。3) 使用了多种机器翻译系统,并评估了它们的翻译质量。4) 在零样本、少样本和微调设置下评估LLMs的性能,以了解它们在不同场景下的表现。

📊 实验亮点

实验结果表明,专有LLMs和微调的开源LLMs在多个数据集上取得了具有竞争力的F1分数,通常超过了最先进的结果。例如,在某些数据集上,微调后的LLaMA模型相比传统方法提升了5-10%的F1分数。然而,在机器翻译数据上的性能通常较低,且下降程度因语言和语系而异,表明翻译质量对LLM性能有显著影响。

🎯 应用场景

该研究成果可应用于多语言心理健康支持系统开发,帮助构建能够理解和处理不同语言用户心理健康需求的AI工具。通过了解LLM在不同语言和翻译质量下的表现,可以优化模型选择和数据处理策略,提升多语言心理健康服务的质量和覆盖范围。研究结果还有助于指导未来LLM在多语言环境下的训练和优化。

📄 摘要(原文)

Large Language Models (LLMs) have remarkable capabilities across NLP tasks. However, their performance in multilingual contexts, especially within the mental health domain, has not been thoroughly explored. In this paper, we evaluate proprietary and open-source LLMs on eight mental health datasets in various languages, as well as their machine-translated (MT) counterparts. We compare LLM performance in zero-shot, few-shot, and fine-tuned settings against conventional NLP baselines that do not employ LLMs. In addition, we assess translation quality across language families and typologies to understand its influence on LLM performance. Proprietary LLMs and fine-tuned open-source LLMs achieve competitive F1 scores on several datasets, often surpassing state-of-the-art results. However, performance on MT data is generally lower, and the extent of this decline varies by language and typology. This variation highlights both the strengths of LLMs in handling mental health tasks in languages other than English and their limitations when translation quality introduces structural or lexical mismatches.