An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
作者: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
分类: cs.CL, cs.AI
发布日期: 2025-10-14
备注: Main Text: 2943; Abstract: 256; Tables and Figures: 5
💡 一句话要点
提出基于AI的行为健康安全过滤器及数据集,用于识别文本对话中的精神健康危机。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 精神健康危机识别 行为健康安全过滤器 自然语言处理 内容审核 大型语言模型 临床心理学 AI安全
📋 核心要点
- 大型语言模型在精神健康紧急情况下处理不当,可能提供有害建议或促成不良行为,现有方法缺乏针对性。
- Verily行为健康安全过滤器(VBHSF)旨在识别文本对话中的精神健康危机,通过高灵敏度来减少危机漏报。
- 实验表明,VBHSF在两个数据集上均优于开源内容审核工具,尤其在灵敏度方面有显著提升。
📝 摘要(中文)
本研究评估了Verily行为健康安全过滤器(VBHSF)在两个数据集上的性能:包含1800条模拟消息的Verily精神健康危机数据集和NVIDIA Aegis AI内容安全数据集中与精神健康相关的794条消息子集。这两个数据集都经过临床医生标注,并使用临床医生标签评估性能。此外,还对两个开源内容审核工具OpenAI Omni Moderation Latest和NVIDIA NeMo Guardrails进行了比较性能分析。VBHSF在Verily精神健康危机数据集v1.0上表现出均衡的性能,在检测任何精神健康危机时,灵敏度为0.990,特异性为0.992,F1分数为0.939,识别特定危机类别的灵敏度范围为0.917-0.992,特异性>=0.978。在NVIDIA Aegis AI内容安全数据集2.0上评估时,VBHSF的灵敏度(0.982)和准确率(0.921)仍然很高,但特异性有所降低(0.859)。与NVIDIA NeMo和OpenAI Omni Moderation Latest相比,VBHSF在两个数据集上都表现出卓越的性能指标,在所有情况下都实现了显著更高的灵敏度(所有p < 0.001),并且相对于NVIDIA NeMo具有更高的特异性(p < 0.001),但相对于OpenAI Omni Moderation Latest则没有(p = 0.094)。NVIDIA NeMo和OpenAI Omni Moderation Latest在特定危机类型上的表现不一致,某些类别的灵敏度低于0.10。总体而言,VBHSF表现出稳健、可泛化的性能,优先考虑灵敏度以最大限度地减少漏报危机,这是医疗保健应用的关键特性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在处理精神健康危机时表现不佳的问题,现有方法(如通用内容审核工具)在识别特定类型的精神健康危机时灵敏度不足,容易漏报,可能导致严重后果。
核心思路:论文的核心思路是构建一个专门针对精神健康危机的安全过滤器,该过滤器需要具备高灵敏度,以最大限度地减少漏报。同时,需要保持一定的特异性,以避免过度报警。
技术框架:VBHSF的具体技术框架未知,但可以推测其可能包含以下模块:1) 文本预处理模块,用于清洗和标准化输入文本;2) 特征提取模块,用于提取与精神健康危机相关的特征(例如,关键词、情感、主题等);3) 分类模块,用于根据提取的特征判断是否存在精神健康危机。
关键创新:该研究的关键创新在于构建了一个专门针对精神健康危机的安全过滤器,并使用临床医生标注的数据集进行训练和评估。与通用内容审核工具相比,VBHSF更注重灵敏度,以最大限度地减少漏报。
关键设计:论文中没有提供关于VBHSF的具体技术细节,例如使用的模型、损失函数、网络结构等。这些细节属于商业机密,可能未公开。
📊 实验亮点
VBHSF在Verily精神健康危机数据集上实现了0.990的灵敏度和0.992的特异性,F1分数为0.939。与NVIDIA NeMo和OpenAI Omni Moderation Latest相比,VBHSF在两个数据集上都表现出显著更高的灵敏度(p < 0.001),表明其在识别精神健康危机方面具有更强的能力。
🎯 应用场景
该研究成果可应用于在线心理咨询平台、社交媒体平台、聊天机器人等场景,用于自动识别和干预潜在的精神健康危机。通过及早发现并提供支持,可以有效降低自杀风险,改善患者的心理健康状况。未来,该技术有望与大型语言模型集成,提升其在精神健康领域的应用安全性。
📄 摘要(原文)
Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.