AI Content Moderation in Therapy Conversations
作者: Jiwon Kim, Claire Wang, Taeung Yoon, Sabelle Huang, Koustuv Saha
分类: cs.HC, cs.AI, cs.CL, cs.CY, cs.SI
发布日期: 2026-05-25
💡 一句话要点
评估AI内容审核系统在心理治疗对话中的局限性,揭示LLM作为治疗师的潜在问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI内容审核 心理治疗 大型语言模型 算法审计 敏感内容
📋 核心要点
- 大型语言模型在心理治疗领域的应用受限于其内置的内容审核机制,这些机制可能阻止模型讨论敏感话题。
- 本研究通过算法审计,评估了三种主流内容审核系统在真实治疗对话中的表现,分析其对敏感内容的识别情况。
- 研究结果揭示了现有内容审核系统在心理治疗场景下的局限性,为未来LLM治疗应用的设计提供了重要参考。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被用于提供情感支持,并且正在开发用于正式的治疗目的。然而,像ChatGPT或Llama这样的LLMs通常配备内容审核机制,以防止它们与用户讨论敏感话题,这既是出于责任考虑,也是为了安全。这种无法触及敏感话题的局限性可能会影响它们作为治疗师的能力。本研究对三种最先进的内容审核系统(OpenAI的审核端点、Meta的Llama Guard和Google的Shield Gemma)进行了算法审计,以调查这些系统将真实治疗会话的内容标记为不良内容的程度。我们的结果揭示了用户和组织在设计LLMs来扮演治疗师角色时可能遇到的限制。
🔬 方法详解
问题定义:论文旨在评估现有AI内容审核系统在心理治疗对话场景下的表现。现有方法的痛点在于,为了安全和合规,大型语言模型通常内置严格的内容审核机制,这可能导致模型无法处理治疗过程中不可避免的敏感话题,从而限制了其作为治疗师的有效性。
核心思路:论文的核心思路是通过对现有内容审核系统进行算法审计,分析它们在真实心理治疗对话中对敏感内容的识别和过滤情况。通过量化这些系统的局限性,为未来开发更适合心理治疗场景的LLM提供指导。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集真实心理治疗对话数据;2) 选择三种主流内容审核系统(OpenAI's moderation endpoint, Meta's Llama Guard, and Google's Shield Gemma);3) 将治疗对话数据输入到这些审核系统中;4) 分析审核系统的输出结果,评估其对不同类型敏感内容的识别率和误判率。
关键创新:该研究的关键创新在于将算法审计方法应用于评估AI内容审核系统在心理治疗场景下的表现。以往的研究主要关注内容审核系统在通用场景下的性能,而本研究则聚焦于一个特定的、对敏感内容处理要求更高的应用场景。
关键设计:研究的关键设计包括:1) 选择具有代表性的心理治疗对话数据集,确保数据涵盖各种敏感话题;2) 采用多种评估指标,例如精确率、召回率和F1值,全面评估内容审核系统的性能;3) 对不同类型敏感内容进行细粒度分析,例如自杀、暴力和性侵犯,从而更深入地了解内容审核系统的局限性。
📊 实验亮点
研究结果表明,现有的内容审核系统在心理治疗对话中存在明显的局限性。具体而言,这些系统可能会过度过滤一些重要的治疗内容,例如关于自杀或创伤经历的讨论。这表明,直接将通用内容审核系统应用于心理治疗场景可能会对治疗效果产生负面影响。研究结果强调了针对特定应用场景定制内容审核策略的重要性。
🎯 应用场景
该研究成果可应用于指导开发更安全、更有效的AI心理治疗工具。通过了解现有内容审核系统的局限性,可以设计出更精细化的审核策略,既能保障用户安全,又能允许模型在必要时处理敏感话题。此外,该研究也为其他涉及敏感内容处理的AI应用提供了参考。
📄 摘要(原文)
Large language models (LLMs) are increasingly being used for emotional support. They are also being developed for formal therapy purposes. However, LLMs like ChaptGPT or Llama are often developed with content moderation guardrails that prevent them from discussing sensitive subjects with users for both liability and safety purposes, and this inability to broach these subjects may affect their capacity as therapists. In this study, we perform an algorithm audit on three state-of-the-art moderation systems (OpenAI's moderation endpoint, Meta's Llama Guard, and Google's Shield Gemma) to investigate the extent to which these systems flag the content of real-life therapy sessions as undesirable. Our results raise implications for the limitations that users and organizations may encounter when designing LLMs to play the part of a therapist.