Finetuning Large Language Models for Automated Depression Screening in Nigerian Pidgin English: GENSCORE Pilot Study

📄 arXiv: 2601.00004v1 📥 PDF

作者: Isaac Iyinoluwa Olufadewa, Miracle Ayomikun Adesina, Ezekiel Ayodeji Oladejo, Uthman Babatunde Usman, Owen Kolade Adeniyi, Matthew Tolulope Olawoyin

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-11-28

备注: 9 pages, 1 figure, 4 tables


💡 一句话要点

微调大型语言模型,用于尼日利亚皮钦语的自动抑郁症筛查:GENSCORE先导研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 抑郁症筛查 尼日利亚皮钦语 微调 自然语言处理

📋 核心要点

  1. 尼日利亚抑郁症筛查受限于语言障碍,传统PHQ-9量表难以直接应用于使用皮钦语的群体。
  2. 论文提出微调大型语言模型,使其适应尼日利亚皮钦语,用于自动抑郁症筛查。
  3. 实验表明,微调后的GPT-4.1在PHQ-9严重程度评分预测中达到94.5%的准确率,效果最佳。

📝 摘要(中文)

抑郁症是尼日利亚心理健康负担的主要因素,但由于临床医生资源有限、社会偏见和语言障碍,筛查覆盖率仍然很低。传统的工具,如患者健康问卷-9(PHQ-9),虽然在高收入国家得到了验证,但在尼日利亚等中低收入国家和社区可能存在语言或文化上的障碍,因为那里的人们使用尼日利亚皮钦语和超过520种当地语言进行交流。本研究提出了一种使用针对会话尼日利亚皮钦语进行调整的微调大型语言模型(LLM)进行自动抑郁症筛查的新方法。我们收集了432份来自18-40岁尼日利亚年轻人的皮钦语音频回复数据集,这些回复针对评估与PHQ-9项目相关的心理体验的提示。我们进行了转录、严格的预处理和标注,包括语义标注、俚语和习语解释以及PHQ-9严重程度评分。三个LLM——Phi-3-mini-4k-instruct、Gemma-3-4B-it和GPT-4.1——在这个标注数据集上进行了微调,并通过定量(准确率、精确率和语义对齐)和定性(清晰度、相关性和文化适当性)方法评估了它们的性能。GPT-4.1取得了最高的定量性能,在PHQ-9严重程度评分预测中准确率达到94.5%,优于Gemma-3-4B-it和Phi-3-mini-4k-instruct。在定性方面,GPT-4.1也产生了最具文化适当性、清晰度和上下文相关性的回复。这项工作为在语言多样化、资源受限的环境中部署基于AI的会话式心理健康工具奠定了基础,从而为服务不足的尼日利亚社区提供AI辅助的抑郁症筛查。

🔬 方法详解

问题定义:论文旨在解决尼日利亚抑郁症筛查中存在的语言障碍问题。现有方法,如直接使用英文或其他语言的PHQ-9量表,无法有效覆盖使用尼日利亚皮钦语的群体,导致筛查覆盖率低,影响心理健康服务。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语言理解和生成能力,通过微调使其适应尼日利亚皮钦语。通过在标注的皮钦语数据集上进行微调,使LLM能够准确理解和评估皮钦语表达中的抑郁症相关信息。

技术框架:整体流程包括数据收集、数据预处理与标注、模型微调和性能评估四个主要阶段。首先,收集尼日利亚年轻人用皮钦语对PHQ-9相关问题作出的音频回复。然后,对音频进行转录,并进行语义标注、俚语和习语解释,以及PHQ-9严重程度评分。接着,使用标注好的数据集对Phi-3-mini-4k-instruct、Gemma-3-4B-it和GPT-4.1三个LLM进行微调。最后,通过定量和定性方法评估微调后模型的性能。

关键创新:该研究的关键创新在于将大型语言模型应用于尼日利亚皮钦语的抑郁症筛查,填补了该领域的研究空白。通过专门针对皮钦语进行微调,提高了模型在该语言环境下的准确性和适用性。此外,该研究还关注了文化适当性,确保模型生成的回复在文化上是敏感和相关的。

关键设计:数据标注阶段,团队进行了细致的语义标注,包括俚语和习语的解释,以确保模型能够准确理解皮钦语的含义。在模型微调阶段,采用了标准的微调技术,并针对不同的LLM进行了参数调整。性能评估方面,采用了准确率、精确率等定量指标,以及清晰度、相关性和文化适当性等定性指标。

📊 实验亮点

实验结果表明,经过微调的GPT-4.1在PHQ-9严重程度评分预测中取得了94.5%的准确率,显著优于Gemma-3-4B-it和Phi-3-mini-4k-instruct。定性评估也显示,GPT-4.1生成的回复在文化适当性、清晰度和上下文相关性方面表现最佳,证明了其在尼日利亚皮钦语抑郁症筛查中的有效性。

🎯 应用场景

该研究成果可应用于开发面向尼日利亚及其他语言多样化地区的AI辅助心理健康筛查工具。通过将微调后的LLM集成到移动应用或在线平台中,可以为资源匮乏地区的居民提供便捷、低成本的抑郁症筛查服务,提高心理健康服务的可及性和覆盖率。未来,该方法还可以扩展到其他心理健康问题的筛查和干预。

📄 摘要(原文)

Depression is a major contributor to the mental-health burden in Nigeria, yet screening coverage remains limited due to low access to clinicians, stigma, and language barriers. Traditional tools like the Patient Health Questionnaire-9 (PHQ-9) were validated in high-income countries but may be linguistically or culturally inaccessible for low- and middle-income countries and communities such as Nigeria where people communicate in Nigerian Pidgin and more than 520 local languages. This study presents a novel approach to automated depression screening using fine-tuned large language models (LLMs) adapted for conversational Nigerian Pidgin. We collected a dataset of 432 Pidgin-language audio responses from Nigerian young adults aged 18-40 to prompts assessing psychological experiences aligned with PHQ-9 items, performed transcription, rigorous preprocessing and annotation, including semantic labeling, slang and idiom interpretation, and PHQ-9 severity scoring. Three LLMs - Phi-3-mini-4k-instruct, Gemma-3-4B-it, and GPT-4.1 - were fine-tuned on this annotated dataset, and their performance was evaluated quantitatively (accuracy, precision and semantic alignment) and qualitatively (clarity, relevance, and cultural appropriateness). GPT-4.1 achieved the highest quantitative performance, with 94.5% accuracy in PHQ-9 severity scoring prediction, outperforming Gemma-3-4B-it and Phi-3-mini-4k-instruct. Qualitatively, GPT-4.1 also produced the most culturally appropriate, clear, and contextually relevant responses. AI-mediated depression screening for underserved Nigerian communities. This work provides a foundation for deploying conversational mental-health tools in linguistically diverse, resource-constrained environments.