Can Large Language Models Identify Implicit Suicidal Ideation? An Empirical Evaluation
作者: Tong Li, Shu Yang, Junchao Wu, Jiyao Wei, Lijie Hu, Mengdi Li, Derek F. Wong, Joshua R. Oltmanns, Di Wang
分类: cs.CL
发布日期: 2025-02-25 (更新: 2026-01-13)
备注: Dataset: https://huggingface.co/datasets/babytreecc/Implicit-suicide-detection
💡 一句话要点
提出评估框架以识别隐性自杀意念并提供支持
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 隐性自杀意念 心理健康 数据集构建 评估框架 自杀预防 支持响应 实验评估
📋 核心要点
- 现有的语言模型在识别隐性自杀意念和提供适当支持方面存在显著不足,影响其在心理健康领域的应用。
- 论文提出了一种新的评估框架,并构建了包含1308个案例的数据集,以更好地评估LLMs在自杀预防中的能力。
- 实验结果显示,当前的LLMs在隐性自杀意念的检测和支持响应方面表现不佳,强调了改进的必要性。
📝 摘要(中文)
本文提出了一种全面的评估框架,用于评估大型语言模型(LLMs)在自杀预防中的能力,重点关注隐性自杀意念的识别(IIS)和适当支持响应的提供(PAS)。我们引入了 hedata,一个基于心理学框架和真实场景构建的1308个测试案例的新数据集。通过对8种广泛使用的LLMs在不同上下文设置下进行广泛实验,我们发现当前模型在检测隐性自杀意念和提供适当支持方面存在显著困难,突显了将LLMs应用于心理健康领域的关键局限性。我们的研究结果强调了在开发和评估LLMs用于敏感心理应用时需要更复杂的方法。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在识别隐性自杀意念和提供适当支持方面的不足,现有方法在心理健康应用中存在显著局限性。
核心思路:通过构建一个新的数据集 hedata,基于心理学框架进行评估,旨在提升LLMs在自杀预防中的有效性和可靠性。
技术框架:整体架构包括数据集构建、模型选择、实验设计和结果分析四个主要模块,确保全面评估模型性能。
关键创新:引入了基于心理学的评估框架和新数据集,使得评估过程更具针对性和实用性,与传统方法相比,提供了更深入的分析视角。
关键设计:在实验中使用了8种主流LLMs,采用多种上下文设置进行测试,关注模型在隐性自杀意念识别和支持响应的表现。实验设计中考虑了不同的参数设置和评估指标,以确保结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前的LLMs在隐性自杀意念的检测上表现不佳,准确率显著低于预期,且在提供适当支持响应方面也存在明显不足。这些发现强调了在心理健康应用中需要更复杂和有效的模型设计。
🎯 应用场景
该研究的潜在应用领域包括心理健康监测、危机干预和自杀预防等。通过改进LLMs在识别隐性自杀意念方面的能力,可以为心理健康专业人士提供更有效的工具,帮助他们在关键时刻提供支持,未来可能对心理健康领域产生深远影响。
📄 摘要(原文)
We present a comprehensive evaluation framework for assessing Large Language Models' (LLMs) capabilities in suicide prevention, focusing on two critical aspects: the Identification of Implicit Suicidal ideation (IIS) and the Provision of Appropriate Supportive responses (PAS). We introduce \ourdata, a novel dataset of 1,308 test cases built upon psychological frameworks including D/S-IAT and Negative Automatic Thinking, alongside real-world scenarios. Through extensive experiments with 8 widely used LLMs under different contextual settings, we find that current models struggle significantly with detecting implicit suicidal ideation and providing appropriate support, highlighting crucial limitations in applying LLMs to mental health contexts. Our findings underscore the need for more sophisticated approaches in developing and evaluating LLMs for sensitive psychological applications.