Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy

作者: Daniil Filienko, Yinzhou Wang, Caroline El Jazmi, Serena Xie, Trevor Cohen, Martine De Cock, Weichao Yuwen

分类: cs.CL, cs.AI, cs.ET, cs.HC, cs.LG

发布日期: 2024-08-27

备注: Accepted for AMIA 2024 proceedings

💡 一句话要点

探索大型语言模型在问题解决疗法中的应用：提示工程提升GPT疗效

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 问题解决疗法 提示工程 心理治疗 AI辅助 医疗保健 症状识别

📋 核心要点

现有心理治疗方法面临专业人员短缺的挑战，难以满足日益增长的需求。
本研究探索利用大型语言模型（LLMs）辅助问题解决疗法，通过提示工程优化模型表现。
实验表明，适当的提示工程能够提升LLMs在心理治疗中的质量、一致性和同理心。

📝 摘要（中文）

本研究探讨了大型语言模型（LLMs）在医疗保健领域的应用，重点关注通过提示工程指导LLMs进行问题解决疗法（PST）会话，尤其是在症状识别和评估阶段，以实现个性化目标设定。研究通过自动指标和医学专业人员的评估，分析了模型性能。结果表明，通过适当的提示工程方法，可以提高模型提供协议化治疗的能力，但也存在局限性。据我们所知，本研究是首批评估各种提示技术在增强通用模型提供心理治疗能力方面的效果的研究之一，重点关注整体质量、一致性和同理心。在心理健康专业人员严重短缺和需求巨大的背景下，探索LLMs在提供心理治疗方面的潜力，有望增强基于AI和AI增强的护理服务的实用性。

🔬 方法详解

问题定义：论文旨在解决心理健康服务中专业人员短缺的问题，探索利用大型语言模型（LLMs）提供部分问题解决疗法（PST）的可行性。现有方法依赖于人工治疗师，成本高昂且难以规模化，无法满足大量患者的需求。

核心思路：论文的核心思路是通过提示工程（Prompt Engineering）来引导LLMs，使其能够更好地执行PST会话中的特定任务，例如症状识别、评估和目标设定。通过精心设计的提示，可以控制LLMs的输出，使其更符合治疗协议的要求，并提高治疗质量。

技术框架：研究主要分为以下几个阶段：1) 选择合适的LLM（例如GPT系列模型）；2) 设计不同的提示策略，例如零样本提示、少样本提示、思维链提示等；3) 利用自动指标（例如困惑度、BLEU）和医学专业人员的评估，对不同提示策略下的模型输出进行评估；4) 分析评估结果，找出最优的提示策略，并探讨其局限性。

关键创新：本研究的关键创新在于系统性地评估了多种提示工程技术在心理治疗领域的应用效果。以往的研究主要关注LLMs在文本生成、问答等任务上的表现，而本研究则将LLMs应用于更复杂的心理治疗场景，并探讨了如何通过提示工程来提高其治疗效果。

关键设计：研究中使用了多种提示策略，包括：1) 零样本提示：直接向LLM提出问题，不提供任何示例；2) 少样本提示：向LLM提供少量示例，帮助其理解任务；3) 思维链提示：引导LLM逐步推理，展示解决问题的过程。此外，研究还使用了不同的评估指标，包括自动指标和人工评估，以全面评估模型性能。

🖼️ 关键图片

📊 实验亮点

研究表明，通过提示工程可以显著提升LLMs在问题解决疗法中的表现。例如，使用思维链提示可以提高模型生成的目标设定的质量和一致性。医学专业人员的评估结果也表明，经过优化的LLMs能够提供具有一定同理心的治疗建议。尽管存在局限性，但该研究为LLMs在心理治疗领域的应用提供了有价值的参考。

🎯 应用场景

该研究成果可应用于开发AI辅助的心理健康服务平台，缓解心理健康专业人员短缺的现状。通过LLMs提供初步的症状评估、目标设定等服务，可以降低治疗成本，提高治疗的可及性，并为患者提供个性化的心理健康支持。未来，结合语音交互、虚拟现实等技术，有望构建更具沉浸感和互动性的AI心理治疗系统。

📄 摘要（原文）

While Large Language Models (LLMs) are being quickly adapted to many domains, including healthcare, their strengths and pitfalls remain under-explored. In our study, we examine the effects of prompt engineering to guide Large Language Models (LLMs) in delivering parts of a Problem-Solving Therapy (PST) session via text, particularly during the symptom identification and assessment phase for personalized goal setting. We present evaluation results of the models' performances by automatic metrics and experienced medical professionals. We demonstrate that the models' capability to deliver protocolized therapy can be improved with the proper use of prompt engineering methods, albeit with limitations. To our knowledge, this study is among the first to assess the effects of various prompting techniques in enhancing a generalist model's ability to deliver psychotherapy, focusing on overall quality, consistency, and empathy. Exploring LLMs' potential in delivering psychotherapy holds promise with the current shortage of mental health professionals amid significant needs, enhancing the potential utility of AI-based and AI-enhanced care services.

Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理