Applying and Evaluating Large Language Models in Mental Health Care: A Scoping Review of Human-Assessed Generative Tasks

作者: Yining Hua, Hongbin Na, Zehan Li, Fenglin Liu, Xiao Fang, David Clifton, John Torous

分类: cs.AI

发布日期: 2024-08-21

💡 一句话要点

综述性研究：评估大型语言模型在心理健康护理中生成任务的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理健康护理 生成式任务 临床应用 综述研究

📋 核心要点

现有心理健康护理面临可及性挑战，大型语言模型展现出提供可扩展支持的潜力。
该综述评估了LLMs在心理健康护理中的生成式应用，侧重于人类参与者在真实场景中的测试。
研究发现LLMs在临床协助等方面有应用，但评估方法不统一，隐私安全等问题待解决。

📝 摘要（中文）

大型语言模型(LLMs)正成为心理健康护理领域有前景的工具，它们通过生成类人回复提供可扩展的支持。然而，这些模型在临床环境中的有效性仍不明确。本综述旨在评估LLMs在心理健康护理中当前生成式应用，重点关注在真实场景中经人类参与者测试的模型研究。通过对APA PsycNet、Scopus、PubMed和Web of Science的系统检索，确定了726篇独立文章，其中17篇符合纳入标准。这些研究涵盖了临床协助、咨询、治疗和情感支持等应用。然而，评估方法通常不标准化，大多数研究依赖于临时量表，限制了可比性和稳健性。隐私、安全和公平性也经常未被充分探索。此外，对OpenAI的GPT系列等专有模型的依赖，引发了对透明度和可重复性的担忧。虽然LLMs在扩大心理健康护理的可及性方面显示出潜力，尤其是在服务不足的地区，但目前的证据并不完全支持将其用作独立干预措施。需要更严格、标准化的评估和伦理监督，以确保这些工具能够安全有效地整合到临床实践中。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在心理健康护理领域的应用现状和效果。现有方法的痛点在于缺乏对LLMs在真实临床场景中应用效果的系统性评估，评估方法不统一，且对隐私、安全和公平性等伦理问题考虑不足。此外，对专有模型的依赖也限制了研究的透明度和可重复性。

核心思路：该研究采用范围界定综述（scoping review）的方法，系统性地检索和筛选相关文献，重点关注LLMs在心理健康护理中生成任务的应用，并考察这些应用在真实场景中经人类评估的效果。通过分析现有研究，总结LLMs在心理健康领域的应用类型、评估方法、伦理考量以及面临的挑战。

技术框架：该研究的技术框架主要包括以下几个阶段： 1. 文献检索：在APA PsycNet、Scopus、PubMed和Web of Science等数据库中进行系统性检索。 2. 文献筛选：根据预先设定的纳入和排除标准，筛选出符合研究主题的文献。 3. 数据提取：从纳入的文献中提取关键信息，包括LLMs的应用类型、评估方法、参与者特征、伦理考量等。 4. 数据综合与分析：对提取的数据进行综合分析，总结LLMs在心理健康护理领域的应用现状、优势、局限性和未来发展方向。

关键创新：该研究的关键创新在于： 1. 系统性地评估了LLMs在心理健康护理领域生成任务的应用现状，填补了该领域研究的空白。 2. 关注LLMs在真实场景中经人类评估的效果，更贴近临床实际应用。 3. 强调了LLMs在心理健康领域应用中的伦理考量，包括隐私、安全和公平性等。

关键设计：该研究的关键设计包括： 1. 明确的纳入和排除标准，确保文献筛选的客观性和一致性。 2. 全面的文献检索策略，尽可能覆盖相关研究。 3. 标准化的数据提取表格，确保数据提取的准确性和完整性。 4. 对研究质量的评估，识别潜在的偏倚风险。

📊 实验亮点

该综述纳入了17项研究，涵盖了LLMs在临床协助、咨询、治疗和情感支持等方面的应用。研究发现，LLMs在心理健康护理领域具有潜力，尤其是在扩大服务可及性方面。然而，现有研究的评估方法不统一，且对隐私、安全和公平性等伦理问题考虑不足。未来的研究需要采用更严格、标准化的评估方法，并加强伦理监督。

🎯 应用场景

该研究结果可应用于指导心理健康护理领域的从业者和研究人员，帮助他们了解LLMs在心理健康领域的潜在应用和局限性。同时，该研究也为LLMs的开发者提供了改进方向，例如，开发更透明、安全和公平的模型，以及采用更标准化的评估方法。未来，LLMs有望在扩大心理健康护理的可及性、提供个性化支持等方面发挥重要作用。

📄 摘要（原文）

Large language models (LLMs) are emerging as promising tools for mental health care, offering scalable support through their ability to generate human-like responses. However, the effectiveness of these models in clinical settings remains unclear. This scoping review aimed to assess the current generative applications of LLMs in mental health care, focusing on studies where these models were tested with human participants in real-world scenarios. A systematic search across APA PsycNet, Scopus, PubMed, and Web of Science identified 726 unique articles, of which 17 met the inclusion criteria. These studies encompassed applications such as clinical assistance, counseling, therapy, and emotional support. However, the evaluation methods were often non-standardized, with most studies relying on ad hoc scales that limit comparability and robustness. Privacy, safety, and fairness were also frequently underexplored. Moreover, reliance on proprietary models, such as OpenAI's GPT series, raises concerns about transparency and reproducibility. While LLMs show potential in expanding mental health care access, especially in underserved areas, the current evidence does not fully support their use as standalone interventions. More rigorous, standardized evaluations and ethical oversight are needed to ensure these tools can be safely and effectively integrated into clinical practice.

Applying and Evaluating Large Language Models in Mental Health Care: A Scoping Review of Human-Assessed Generative Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理