Evaluating Reasoning LLMs for Suicide Screening with the Columbia-Suicide Severity Rating Scale

作者: Avinash Patil, Siru Tao, Amardeep Gedhu

分类: cs.CL, cs.AI, cs.CY, cs.LG

发布日期: 2025-05-11

备注: 8 Pages, 6 Figures, 1 Table

🔗 代码/项目: GITHUB

💡 一句话要点

评估大型语言模型在哥伦比亚自杀严重程度评定量表上的自杀筛查能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自杀风险评估 哥伦比亚自杀严重程度评定量表 零样本学习 心理健康 自然语言处理 风险预测

📋 核心要点

现有方法难以有效利用LLM进行自杀风险评估，缺乏对LLM在C-SSRS上的零样本性能的系统评估。
该研究探索了利用LLM直接进行自杀风险评估，无需额外训练，评估其在C-SSRS上的分类能力。
实验结果表明，Claude和GPT模型与人类标注结果高度一致，Mistral模型在序数预测误差方面表现最佳。

📝 摘要（中文）

自杀预防仍然是一项严峻的公共卫生挑战。虽然Reddit的r/SuicideWatch等在线平台历来为表达自杀想法和寻求社区支持的个人提供了空间，但大型语言模型（LLM）的出现引入了一种新的范例——个人可能开始向AI系统而非人类披露自杀意念。本研究评估了LLM使用哥伦比亚自杀严重程度评定量表（C-SSRS）执行自动自杀风险评估的能力。我们评估了六个模型（包括Claude、GPT、Mistral和LLaMA）在7点严重程度等级（0-6级）上分类帖子的零样本性能。结果表明，Claude和GPT与人类标注密切相关，而Mistral实现了最低的序数预测误差。大多数模型表现出序数敏感性，错误分类通常发生在相邻的严重程度级别之间。我们进一步分析了混淆模式、错误分类来源和伦理考量，强调了人工监督、透明度和谨慎部署的重要性。完整的代码和补充材料可在https://github.com/av9ash/llm_cssrs_code上找到。

🔬 方法详解

问题定义：该论文旨在评估大型语言模型（LLM）在自杀风险评估领域的应用潜力，具体问题是：LLM能否在零样本（zero-shot）设置下，根据哥伦比亚自杀严重程度评定量表（C-SSRS）准确评估文本中表达的自杀风险等级？现有方法主要依赖人工评估或需要大量标注数据进行模型训练，成本高昂且效率低下。

核心思路：核心思路是直接利用预训练的LLM的推理能力，无需针对自杀风险评估任务进行微调或额外训练。通过将文本输入LLM，并要求其输出对应的C-SSRS等级，评估LLM在理解和判断自杀风险方面的能力。这种零样本方法旨在降低模型部署成本，并快速应用于实际场景。

技术框架：整体框架包括数据收集、模型选择、评估指标和结果分析四个主要阶段。首先，从公开的在线论坛（如Reddit的r/SuicideWatch）收集包含自杀意念表达的文本数据。然后，选择一系列具有代表性的LLM，包括Claude、GPT、Mistral和LLaMA等。接着，使用C-SSRS作为评估标准，将文本输入LLM，并记录其输出的自杀风险等级。最后，使用诸如序数预测误差等指标，将LLM的预测结果与人工标注结果进行比较，分析模型的性能和局限性。

关键创新：该研究的关键创新在于首次系统性地评估了LLM在零样本设置下，使用C-SSRS进行自杀风险评估的能力。与以往需要大量标注数据进行模型训练的方法不同，该研究探索了直接利用预训练LLM的知识和推理能力，从而降低了模型部署和维护的成本。

关键设计：该研究的关键设计包括：1) 选择C-SSRS作为评估标准，C-SSRS是一个广泛使用的自杀风险评估工具，具有明确的等级划分和评估标准。2) 采用零样本评估方法，避免了模型训练过程中的数据偏差和过拟合问题。3) 使用序数预测误差等指标，更准确地评估模型在序数分类任务中的性能。4) 对模型的混淆矩阵进行分析，深入了解模型的错误分类模式和潜在的改进方向。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Claude和GPT模型在零样本设置下，与人类标注结果具有较高的一致性，表明这些模型具备一定的自杀风险识别能力。Mistral模型在序数预测误差方面表现最佳，说明其在相邻风险等级的区分上具有优势。研究还发现，大多数模型表现出序数敏感性，即错误分类通常发生在相邻的严重程度级别之间。

🎯 应用场景

该研究成果可应用于在线心理健康支持平台、社交媒体监控系统等领域，辅助人工进行自杀风险评估，提高评估效率和准确性。未来，结合LLM的自杀风险评估能力，可以开发更智能化的心理健康干预系统，为有自杀倾向的个体提供及时有效的帮助。

📄 摘要（原文）

Suicide prevention remains a critical public health challenge. While online platforms such as Reddit's r/SuicideWatch have historically provided spaces for individuals to express suicidal thoughts and seek community support, the advent of large language models (LLMs) introduces a new paradigm-where individuals may begin disclosing ideation to AI systems instead of humans. This study evaluates the capability of LLMs to perform automated suicide risk assessment using the Columbia-Suicide Severity Rating Scale (C-SSRS). We assess the zero-shot performance of six models-including Claude, GPT, Mistral, and LLaMA-in classifying posts across a 7-point severity scale (Levels 0-6). Results indicate that Claude and GPT closely align with human annotations, while Mistral achieves the lowest ordinal prediction error. Most models exhibit ordinal sensitivity, with misclassifications typically occurring between adjacent severity levels. We further analyze confusion patterns, misclassification sources, and ethical considerations, underscoring the importance of human oversight, transparency, and cautious deployment. Full code and supplementary materials are available at https://github.com/av9ash/llm_cssrs_code.

Evaluating Reasoning LLMs for Suicide Screening with the Columbia-Suicide Severity Rating Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理