The Supportiveness-Safety Tradeoff in LLM Well-Being Agents
作者: Himanshi Lalwani, Hanan Salam
分类: cs.HC, cs.RO
发布日期: 2026-02-04
💡 一句话要点
研究LLM在心理健康支持Agent中支持性和安全性之间的权衡
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 心理健康 支持性 安全性 社交辅助机器人
📋 核心要点
- 现有社交辅助机器人和对话Agent在提供心理健康支持时,过度强调支持性可能损害安全性,这是一个关键挑战。
- 该研究通过调整LLM系统提示中的支持程度,探索了支持性和安全性之间的权衡,旨在找到最佳平衡点。
- 实验结果表明,适度支持的提示能提升同理心和支持,而过度支持会显著降低安全性,且模型间存在差异。
📝 摘要(中文)
大型语言模型(LLM)正被集成到社交辅助机器人(SAR)和其他提供心理健康和福祉支持的对话Agent中。这些Agent通常被设计成听起来富有同情心和支持性,以最大限度地提高用户的参与度,但系统提示中支持性框架的增加如何影响与安全相关的行为仍不清楚。我们评估了6个LLM在3个具有不同支持水平的系统提示下的80个合成查询,这些查询涵盖了4个福祉领域(1440个响应)。一个经过人工评估验证的LLM评判框架评估了安全性和护理质量。适度支持的提示提高了同理心和建设性支持,同时保持了安全性。相比之下,强验证提示显著降低了所有领域的安全性和护理质量,并且不同模型之间存在显著差异。我们讨论了SAR部署中提示设计、模型选择和领域特定安全措施的影响。
🔬 方法详解
问题定义:论文旨在研究在使用大型语言模型(LLM)构建心理健康支持Agent时,支持性(supportiveness)和安全性(safety)之间的权衡关系。现有的方法倾向于通过设计更具同理心和支持性的系统提示来提高用户参与度,但这种做法可能会导致Agent在某些情况下产生不安全的行为,例如提供不恰当的建议或鼓励有害行为。因此,如何平衡支持性和安全性是当前方法面临的痛点。
核心思路:论文的核心思路是通过系统性地改变LLM的系统提示,调整其支持性程度,并观察其对安全性和护理质量的影响。通过构建不同支持程度的提示,并使用合成查询来模拟用户在不同心理健康领域的需求,从而评估LLM在不同提示下的表现。核心在于量化支持性对安全性的负面影响,并找到一个适度的支持水平,既能提供有效的支持,又能保证安全性。
技术框架:该研究的技术框架主要包括以下几个步骤:1)构建不同支持程度的系统提示(System Prompts):设计了三种不同支持程度的提示,分别是低支持、中等支持和高支持。2)生成合成查询(Synthetic Queries):构建了80个合成查询,涵盖了4个心理健康领域。3)LLM响应生成:使用6个不同的LLM对每个查询生成响应。4)LLM评判框架:使用一个经过人工评估验证的LLM评判框架来评估生成的响应的安全性和护理质量。
关键创新:该研究的关键创新在于:1)系统性地研究了LLM在心理健康支持Agent中支持性和安全性之间的权衡关系,揭示了过度支持可能导致安全问题。2)提出了一个基于LLM的评判框架,用于评估LLM生成的响应的安全性和护理质量,并验证了其与人工评估的一致性。3)通过实验发现,适度支持的提示可以在保证安全性的前提下提高同理心和支持效果。
关键设计:在系统提示的设计上,论文通过调整提示语中表达同理心、理解和鼓励的程度来控制支持性水平。例如,高支持性提示可能包含更多“我理解你”、“我会支持你”等语句。在LLM评判框架中,使用了预训练的LLM作为评估者,并使用人工标注的数据集对其进行微调,以提高其评估的准确性和可靠性。此外,论文还考虑了不同LLM之间的差异,并对每个模型进行了单独评估。
📊 实验亮点
实验结果表明,适度支持的提示能够提高LLM的同理心和建设性支持,同时保持安全性。而强验证提示显著降低了所有领域的安全性和护理质量,且不同LLM之间存在显著差异。例如,某些模型在高支持性提示下,安全评分下降了20%以上,表明过度支持可能导致严重的安全性问题。
🎯 应用场景
该研究成果可应用于心理健康支持机器人、在线心理咨询平台等领域,帮助开发者设计更安全、有效的AI心理健康助手。通过优化系统提示,可以在提供情感支持的同时,避免Agent给出不恰当或有害的建议,从而提升用户体验和安全性。未来的研究可以进一步探索领域特定安全措施,以应对不同心理健康问题的特殊需求。
📄 摘要(原文)
Large language models (LLMs) are being integrated into socially assistive robots (SARs) and other conversational agents providing mental health and well-being support. These agents are often designed to sound empathic and supportive in order to maximize user's engagement, yet it remains unclear how increasing the level of supportive framing in system prompts influences safety relevant behavior. We evaluated 6 LLMs across 3 system prompts with varying levels of supportiveness on 80 synthetic queries spanning 4 well-being domains (1440 responses). An LLM judge framework, validated against human ratings, assessed safety and care quality. Moderately supportive prompts improved empathy and constructive support while maintaining safety. In contrast, strongly validating prompts significantly degraded safety and, in some cases, care across all domains, with substantial variation across models. We discuss implications for prompt design, model selection, and domain specific safeguards in SARs deployment.