MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

📄 arXiv: 2604.17730v1 📥 PDF

作者: Suhyun Lee, Palakorn Achananuparp, Neemesh Yadav, Ee-Peng Lim, Yang Deng

分类: cs.CL, cs.AI, cs.HC

发布日期: 2026-04-20

备注: Accepted to ACL 2026 Findings


💡 一句话要点

提出MHSafeEval框架,用于评估大型语言模型在心理健康咨询中的角色感知交互安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理健康 安全评估 角色感知 对抗性交互

📋 核心要点

  1. 现有心理健康LLM安全评估方法缺乏对多轮交互中角色扮演和危害累积的考量。
  2. MHSafeEval通过角色感知的安全分类法和闭环对抗交互,模拟真实咨询场景评估LLM安全性。
  3. 实验表明,MHSafeEval能有效发现现有静态基准遗漏的角色依赖和累积性安全问题。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被探索作为心理健康咨询的可扩展工具,但由于临床危害的交互性和上下文依赖性,评估其安全性仍然具有挑战性。现有的评估框架主要使用粗粒度的分类或静态数据集来评估孤立的响应,限制了它们诊断危害如何在多轮咨询交互中出现和累积的能力。本文介绍R-MHSafe,一种角色感知的心理健康安全分类法,它根据AI咨询师所扮演的交互角色(包括施害者、煽动者、促进者或促成者)以及临床相关的危害类别来描述临床上显著的危害。然后,我们提出了MHSafeEval,一个闭环的、基于代理的评估框架,它将安全评估定义为通过对抗性多轮交互进行的角色感知建模指导下的危害轨迹级发现。使用R-MHSafe和MHSafeEval,我们对最先进的LLM进行了大规模评估。我们的结果表明,现有的静态基准系统性地遗漏了大量的角色依赖性和累积性安全故障,并且表明我们的框架显著提高了故障模式覆盖率和诊断粒度。

🔬 方法详解

问题定义:现有的大型语言模型在心理健康咨询领域的应用面临安全风险,尤其是在多轮对话中,模型可能扮演不恰当的角色(如施害者、煽动者等),导致临床危害。现有的评估方法主要关注孤立的响应,缺乏对交互过程和角色影响的细致评估,无法有效诊断危害的产生和累积。

核心思路:论文的核心思路是将安全评估转化为一个在对抗性多轮交互中发现危害轨迹的过程。通过定义角色感知的安全分类法(R-MHSafe),并构建一个基于代理的闭环评估框架(MHSafeEval),模拟真实咨询场景,系统性地探索LLM在不同角色下的安全表现。这种方法能够更全面地捕捉LLM在交互过程中可能出现的安全问题。

技术框架:MHSafeEval框架包含以下主要模块:1) 角色感知安全分类法 (R-MHSafe):定义了AI咨询师可能扮演的角色(施害者、煽动者、促进者、促成者)以及对应的临床危害类别。2) 基于代理的闭环评估:通过两个代理(一个扮演咨询师,一个扮演患者)进行多轮对话,模拟咨询过程。3) 对抗性交互:患者代理被设计为具有一定的对抗性,试图诱导咨询师代理产生不安全的行为。4) 安全评估:在交互过程中,根据R-MHSafe分类法评估咨询师代理的安全表现。

关键创新:该论文最重要的技术创新在于提出了角色感知的安全评估方法,并将其应用于多轮交互场景。与现有方法相比,MHSafeEval能够更全面地评估LLM在心理健康咨询中的安全性,并诊断出传统静态基准难以发现的安全问题。通过闭环的对抗性交互,该框架能够主动探索LLM的安全边界,提高评估的有效性。

关键设计:R-MHSafe分类法的设计基于临床实践和心理健康领域的专业知识,确保了分类的有效性和实用性。对抗性患者代理的设计需要平衡对抗性和真实性,避免过度偏离真实咨询场景。评估指标的设计需要能够准确反映LLM在不同角色下的安全表现,并能够区分不同类型的危害。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MHSafeEval能够发现现有静态基准遗漏的大量角色依赖性和累积性安全故障。例如,在某些情况下,LLM在扮演“促进者”角色时,可能会无意中促成患者产生自杀倾向。通过MHSafeEval,研究人员能够更精确地诊断这些安全问题,并为LLM的安全改进提供指导。

🎯 应用场景

该研究成果可应用于心理健康咨询AI系统的开发和评估,帮助开发者构建更安全可靠的AI咨询工具。此外,该框架也可推广到其他涉及人机交互的敏感领域,如教育、法律等,用于评估AI系统的安全性和伦理风险。该研究有助于推动负责任的AI发展,保障用户权益。

📄 摘要(原文)

Large language models (LLMs) are increasingly explored as scalable tools for mental health counseling, yet evaluating their safety remains challenging due to the interactional and context-dependent nature of clinical harm. Existing evaluation frameworks predominantly assess isolated responses using coarse-grained taxonomies or static datasets, limiting their ability to diagnose how harms emerge and accumulate over multi-turn counseling interactions. In this work, we introduce R-MHSafe, a role-aware mental health safety taxonomy that characterizes clinically significant harm in terms of the interactional roles an AI counselor adopts, including perpetrator, instigator, facilitator, or enabler, combined with clinically grounded harm categories. Then, we propose MHSafeEval, a closed-loop, agent-based evaluation framework that formulates safety assessment as trajectory-level discovery of harm through adversarial multi-turn interactions, guided by role-aware modeling. Using R-MHSafe and MHSafeEval, we conduct a large-scale evaluation across state-of-the-art LLMs. Our results reveal substantial role-dependent and cumulative safety failures that are systematically missed by existing static benchmarks, and show that our framework significantly improves failure-mode coverage and diagnostic granularity.