PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

作者: Gianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher

分类: cs.CL

发布日期: 2026-06-08

💡 一句话要点

提出PsychoSafe框架以改善大语言模型的拒绝响应

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 心理学干预 拒绝响应 支持性沟通 危机干预 外部资源推荐 模型微调

📋 核心要点

现有的大语言模型在处理需要拒绝的请求时，往往面临帮助性与防止伤害之间的权衡，导致拒绝响应效果不佳。
PsychoSafe框架通过将拒绝转化为结构化的支持性沟通，结合心理学干预策略，旨在提高拒绝响应的质量。
实验结果表明，PsychoSafe在拒绝质量上比通用基线提高了28.1%，在外部资源推荐和心理基础方面的提升尤为显著。

📝 摘要（中文）

大语言模型（LLMs）经常面临需要拒绝的请求，这在帮助性与防止伤害之间形成了权衡。然而，拒绝本身也可以是有帮助的。在涉及危机、强迫或升级意图的高风险互动中，简单的拒绝可能会防止直接伤害，但仍未能支持请求者的需求。本文提出了PsychoSafe，一个基于心理学的拒绝框架，将拒绝重新构建为结构化的支持性沟通，基于证据的干预策略。通过构建包含8019个提示-响应对的语料库，并对Qwen 3.5 27B进行提示和参数高效微调，PsychoSafe在500个平衡验证集上评估，结果显示其拒绝质量比通用基线提高了28.1%。

🔬 方法详解

问题定义：本文旨在解决大语言模型在高风险请求中拒绝响应的不足，现有方法往往无法有效支持请求者的需求。

核心思路：PsychoSafe框架通过心理学的视角，将拒绝转化为一种支持性沟通，旨在在防止伤害的同时满足请求者的心理需求。

技术框架：整体架构包括构建一个包含8019个提示-响应对的语料库，并对Qwen 3.5 27B进行提示和参数高效微调，最终在验证集上进行评估。

关键创新：PsychoSafe的创新在于将拒绝视为一种支持性沟通，而非简单的拒绝，从而提升了拒绝的质量和效果。

关键设计：在微调过程中，采用了特定的参数设置和损失函数，以确保模型在拒绝时能够有效推荐外部资源，同时保持对非拒绝任务的性能。

🖼️ 关键图片

📊 实验亮点

实验结果显示，PsychoSafe在拒绝质量上比通用基线提高了28.1%，在外部资源推荐方面提升了46.8%，心理基础方面提升了34.8%。此外，微调后拒绝和资源推荐的准确率接近完美，但响应的相关性有所下降。

🎯 应用场景

PsychoSafe框架具有广泛的应用潜力，尤其在心理健康支持、危机干预和社会服务等领域。通过提供更具支持性的拒绝响应，该框架能够帮助专业人士更有效地应对高风险互动，提升服务质量。未来，该研究可能影响大语言模型在敏感场景中的应用，推动更人性化的人工智能交互。

📄 摘要（原文）

Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理