PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
作者: Gianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher
分类: cs.CL
发布日期: 2026-06-08
💡 一句话要点
提出PsychoSafe框架以改善大语言模型的拒绝响应
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 心理学干预 拒绝响应 支持性沟通 危机干预 外部资源推荐 模型微调
📋 核心要点
- 现有的大语言模型在处理需要拒绝的请求时,往往面临帮助性与防止伤害之间的权衡,导致拒绝响应效果不佳。
- PsychoSafe框架通过将拒绝转化为结构化的支持性沟通,结合心理学干预策略,旨在提高拒绝响应的质量。
- 实验结果表明,PsychoSafe在拒绝质量上比通用基线提高了28.1%,在外部资源推荐和心理基础方面的提升尤为显著。
📝 摘要(中文)
大语言模型(LLMs)经常面临需要拒绝的请求,这在帮助性与防止伤害之间形成了权衡。然而,拒绝本身也可以是有帮助的。在涉及危机、强迫或升级意图的高风险互动中,简单的拒绝可能会防止直接伤害,但仍未能支持请求者的需求。本文提出了PsychoSafe,一个基于心理学的拒绝框架,将拒绝重新构建为结构化的支持性沟通,基于证据的干预策略。通过构建包含8019个提示-响应对的语料库,并对Qwen 3.5 27B进行提示和参数高效微调,PsychoSafe在500个平衡验证集上评估,结果显示其拒绝质量比通用基线提高了28.1%。
🔬 方法详解
问题定义:本文旨在解决大语言模型在高风险请求中拒绝响应的不足,现有方法往往无法有效支持请求者的需求。
核心思路:PsychoSafe框架通过心理学的视角,将拒绝转化为一种支持性沟通,旨在在防止伤害的同时满足请求者的心理需求。
技术框架:整体架构包括构建一个包含8019个提示-响应对的语料库,并对Qwen 3.5 27B进行提示和参数高效微调,最终在验证集上进行评估。
关键创新:PsychoSafe的创新在于将拒绝视为一种支持性沟通,而非简单的拒绝,从而提升了拒绝的质量和效果。
关键设计:在微调过程中,采用了特定的参数设置和损失函数,以确保模型在拒绝时能够有效推荐外部资源,同时保持对非拒绝任务的性能。
🖼️ 关键图片
📊 实验亮点
实验结果显示,PsychoSafe在拒绝质量上比通用基线提高了28.1%,在外部资源推荐方面提升了46.8%,心理基础方面提升了34.8%。此外,微调后拒绝和资源推荐的准确率接近完美,但响应的相关性有所下降。
🎯 应用场景
PsychoSafe框架具有广泛的应用潜力,尤其在心理健康支持、危机干预和社会服务等领域。通过提供更具支持性的拒绝响应,该框架能够帮助专业人士更有效地应对高风险互动,提升服务质量。未来,该研究可能影响大语言模型在敏感场景中的应用,推动更人性化的人工智能交互。
📄 摘要(原文)
Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.