Unlocking LLMs: Addressing Scarce Data and Bias Challenges in Mental Health
作者: Vivek Kumar, Eirini Ntoutsi, Pushpraj Singh Rajawat, Giacomo Medda, Diego Reforgiato Recupero
分类: cs.CL
发布日期: 2024-12-17
备注: International Conference on Natural Language Processing and Artificial Intelligence for Cyber Security (NLPAICS) 2024
💡 一句话要点
提出IC-AnnoMI数据集,解决心理健康领域LLM数据稀缺和偏差问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 动机访谈 心理健康 数据增强 偏差缓解 情感推理 对话生成
📋 核心要点
- 现有LLM在心理健康领域应用受限于数据稀缺、偏差和对领域知识理解不足等问题。
- 论文提出IC-AnnoMI数据集,通过LLM生成并由专家标注,提升数据质量和领域相关性。
- 实验表明,IC-AnnoMI数据集能有效评估LLM的情感推理能力,并缓解偏差问题。
📝 摘要(中文)
大型语言模型(LLM)在医疗健康分析中展现出潜力,但也面临幻觉、鹦鹉学舌和偏差显现等挑战。这些挑战在复杂、敏感和低资源领域尤为突出。因此,本文提出了IC-AnnoMI,一个由专家标注的动机访谈(MI)数据集,该数据集基于AnnoMI,通过利用LLM(特别是ChatGPT)生成上下文对话而构建。IC-AnnoMI采用目标提示,通过线索和定制信息进行精确设计,同时考虑治疗风格(共情、反思)、上下文相关性和虚假语义变化。随后,对话由专家严格按照动机访谈技能代码(MISC)进行标注,重点关注MI对话的心理和语言维度。我们全面评估了IC-AnnoMI数据集和ChatGPT的情感推理能力以及对领域复杂性的理解,通过建模新颖的分类任务,采用多种经典机器学习和当前最先进的Transformer方法。最后,我们讨论了渐进式提示策略的影响以及增强数据在减轻IC-AnnoMI中表现出的偏差方面的作用。我们的贡献不仅为MI社区提供了一个全面的数据集,还为在监督设置下使用LLM进行会话治疗中的共情文本生成提供了宝贵的见解。
🔬 方法详解
问题定义:论文旨在解决心理健康领域,特别是动机访谈(MI)中,大型语言模型(LLM)因数据稀缺、领域知识不足以及潜在偏差而难以有效应用的问题。现有方法依赖通用数据集,无法充分捕捉MI对话的细微差别和心理学特征,导致LLM在共情理解和治疗策略应用方面表现不佳。
核心思路:论文的核心思路是利用LLM(ChatGPT)生成高质量的MI对话数据,并通过专家标注来确保数据的准确性和领域相关性。通过精心设计的提示工程,引导LLM模拟真实的治疗场景,并关注共情、反思等关键治疗技巧。这种数据增强方法旨在弥补现有MI数据集的不足,并为LLM提供更具针对性的训练数据。
技术框架:整体框架包含三个主要阶段:1) 数据生成:使用ChatGPT和精心设计的提示,基于AnnoMI数据集生成MI对话。提示设计考虑了治疗风格、上下文相关性和避免语义变化。2) 数据标注:由领域专家严格按照MISC标准对生成的对话进行标注,关注心理和语言维度。3) 模型评估:使用经典机器学习和Transformer模型在IC-AnnoMI数据集上进行分类任务,评估数据集质量和LLM的情感推理能力。
关键创新:论文的关键创新在于IC-AnnoMI数据集的构建方法,即利用LLM生成数据并由专家进行标注。这种方法结合了LLM的生成能力和专家的领域知识,有效解决了数据稀缺和偏差问题。此外,论文还探索了渐进式提示策略,逐步引导LLM生成更符合MI原则的对话。
关键设计:提示工程是关键设计之一,通过线索和定制信息来引导ChatGPT生成高质量的MI对话。MISC标准被严格应用于数据标注,确保标注的一致性和准确性。实验中,采用了多种分类模型,包括经典机器学习方法(如支持向量机)和Transformer模型(如BERT),以全面评估数据集的质量和LLM的性能。
🖼️ 关键图片
📊 实验亮点
论文构建了IC-AnnoMI数据集,并通过实验验证了其有效性。实验结果表明,在IC-AnnoMI数据集上训练的模型能够更好地理解MI对话的心理和语言维度,并有效缓解偏差问题。此外,渐进式提示策略能够显著提升LLM生成MI对话的质量。
🎯 应用场景
该研究成果可应用于心理健康领域的智能辅助治疗系统,例如,利用LLM生成具有共情能力的对话,辅助治疗师进行动机访谈。此外,IC-AnnoMI数据集可作为基准数据集,用于评估和提升LLM在心理健康领域的应用能力,推动个性化心理健康服务的普及。
📄 摘要(原文)
Large language models (LLMs) have shown promising capabilities in healthcare analysis but face several challenges like hallucinations, parroting, and bias manifestation. These challenges are exacerbated in complex, sensitive, and low-resource domains. Therefore, in this work we introduce IC-AnnoMI, an expert-annotated motivational interviewing (MI) dataset built upon AnnoMI by generating in-context conversational dialogues leveraging LLMs, particularly ChatGPT. IC-AnnoMI employs targeted prompts accurately engineered through cues and tailored information, taking into account therapy style (empathy, reflection), contextual relevance, and false semantic change. Subsequently, the dialogues are annotated by experts, strictly adhering to the Motivational Interviewing Skills Code (MISC), focusing on both the psychological and linguistic dimensions of MI dialogues. We comprehensively evaluate the IC-AnnoMI dataset and ChatGPT's emotional reasoning ability and understanding of domain intricacies by modeling novel classification tasks employing several classical machine learning and current state-of-the-art transformer approaches. Finally, we discuss the effects of progressive prompting strategies and the impact of augmented data in mitigating the biases manifested in IC-AnnoM. Our contributions provide the MI community with not only a comprehensive dataset but also valuable insights for using LLMs in empathetic text generation for conversational therapy in supervised settings.