PsychEthicsBench: Evaluating Large Language Models Against Australian Mental Health Ethics

📄 arXiv: 2601.03578v1 📥 PDF

作者: Yaling Shen, Stephanie Fong, Yiwen Jiang, Zimu Wang, Feilong Tang, Qingyang Xu, Xiangyu Zhao, Zhongxing Xu, Jiahe Liu, Jinpeng Hu, Dominic Dwyer, Zongyuan Ge

分类: cs.CL

发布日期: 2026-01-07

备注: 17 pages


💡 一句话要点

PsychEthicsBench:评估大型语言模型在澳大利亚心理健康伦理方面的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理健康 伦理评估 基准测试 澳大利亚伦理指南

📋 核心要点

  1. 现有评估方法过度依赖拒绝信号,无法充分评估LLM在心理健康临床实践中的伦理行为。
  2. 提出PsychEthicsBench基准,基于澳大利亚心理学和精神病学指南,评估LLM的伦理知识和行为反应。
  3. 实验表明拒绝率不能有效反映伦理行为,领域微调可能降低伦理稳健性,为负责任的开发提供基础。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于心理健康领域,因此需要强大的框架来评估其专业安全一致性。目前的评估方法主要依赖于基于拒绝的安全信号,但这种方法对临床实践中所需的细微行为洞察力有限。在心理健康领域,临床上不充分的拒绝可能被认为是不体贴的,并阻碍患者寻求帮助。为了解决这个问题,我们超越了以拒绝为中心的指标,推出了 exttt{PsychEthicsBench},这是第一个基于澳大利亚心理学和精神病学指南的原则性基准,旨在通过多项选择和开放式任务以及细粒度的伦理注释来评估LLM的伦理知识和行为反应。对14个模型的实证结果表明,拒绝率是伦理行为的糟糕指标,揭示了安全触发器和临床适当性之间的显著差异。值得注意的是,我们发现特定领域的微调会降低伦理稳健性,因为一些专门的模型在伦理一致性方面的表现不如其基础模型。 exttt{PsychEthicsBench}为系统地、具有管辖区意识地评估LLM在心理健康领域的应用奠定了基础,鼓励该领域更负责任的开发。

🔬 方法详解

问题定义:现有的大型语言模型在心理健康领域的应用评估主要依赖于拒绝回答某些问题作为安全指标。然而,这种方法无法捕捉到临床实践中伦理行为的细微差别。不恰当的拒绝可能被视为缺乏同情心,阻碍患者寻求帮助。因此,需要一个更细致、更符合临床伦理标准的评估框架。

核心思路:PsychEthicsBench的核心思路是构建一个基于澳大利亚心理学和精神病学指南的伦理基准,通过多项选择和开放式问题,评估LLM在面对心理健康场景时的伦理知识和行为反应。该基准超越了简单的拒绝率,关注LLM在具体情境下的伦理判断和行为表现。

技术框架:PsychEthicsBench包含以下主要组成部分: 1. 伦理指南收集与整理:收集澳大利亚心理学和精神病学相关的伦理指南,作为基准的理论基础。 2. 任务设计:设计多项选择和开放式问题,涵盖各种心理健康场景,考察LLM的伦理知识和行为反应。 3. 伦理标注:对LLM的回答进行细粒度的伦理标注,评估其伦理水平。 4. 模型评估:使用PsychEthicsBench评估多个LLM,分析其伦理表现,并与拒绝率等指标进行对比。

关键创新:PsychEthicsBench的关键创新在于: 1. 超越拒绝率:不再仅仅依赖拒绝率作为安全指标,而是关注LLM在具体情境下的伦理判断和行为表现。 2. 基于伦理原则:基准建立在澳大利亚心理学和精神病学指南的伦理原则之上,更符合临床实践的需求。 3. 细粒度标注:对LLM的回答进行细粒度的伦理标注,提供更全面的评估结果。

关键设计:PsychEthicsBench的关键设计包括: 1. 任务多样性:包含多项选择和开放式问题,考察LLM的不同能力。 2. 场景覆盖性:涵盖各种心理健康场景,确保基准的代表性。 3. 标注一致性:采用严格的标注流程,确保标注的一致性和可靠性。

📊 实验亮点

实验结果表明,拒绝率并不能有效反映LLM的伦理行为,一些领域微调的模型在伦理方面的表现甚至不如其基础模型。例如,某些专门用于心理健康领域的模型,在PsychEthicsBench上的伦理得分低于通用LLM,这表明领域微调可能导致伦理稳健性的下降。该发现强调了在心理健康领域应用LLM时,伦理评估的重要性。

🎯 应用场景

PsychEthicsBench可用于评估和改进大型语言模型在心理健康领域的应用,例如心理咨询机器人、心理健康助手等。通过该基准,可以确保这些模型在提供服务时符合伦理标准,避免对患者造成伤害。该研究有助于推动负责任的人工智能在心理健康领域的应用,提升服务的质量和安全性。

📄 摘要(原文)

The increasing integration of large language models (LLMs) into mental health applications necessitates robust frameworks for evaluating professional safety alignment. Current evaluative approaches primarily rely on refusal-based safety signals, which offer limited insight into the nuanced behaviors required in clinical practice. In mental health, clinically inadequate refusals can be perceived as unempathetic and discourage help-seeking. To address this gap, we move beyond refusal-centric metrics and introduce \texttt{PsychEthicsBench}, the first principle-grounded benchmark based on Australian psychology and psychiatry guidelines, designed to evaluate LLMs' ethical knowledge and behavioral responses through multiple-choice and open-ended tasks with fine-grained ethicality annotations. Empirical results across 14 models reveal that refusal rates are poor indicators of ethical behavior, revealing a significant divergence between safety triggers and clinical appropriateness. Notably, we find that domain-specific fine-tuning can degrade ethical robustness, as several specialized models underperform their base backbones in ethical alignment. PsychEthicsBench provides a foundation for systematic, jurisdiction-aware evaluation of LLMs in mental health, encouraging more responsible development in this domain.