Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries

📄 arXiv: 2502.14975v1 📥 PDF

作者: David Noever, Grant Rosario

分类: cs.CL, cs.AI

发布日期: 2025-02-20


💡 一句话要点

量化AI过度拒绝与情感依恋边界:提出LLM情感边界处理评估框架。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感边界 评估框架 模式匹配 人机交互 安全性 可靠性

📋 核心要点

  1. 现有LLM在处理情感边界时缺乏系统性的评估方法,难以量化其拒绝行为和情感表达的适当性。
  2. 该研究提出了一种基于模式匹配的评估框架,通过分析LLM对特定提示的响应,量化其情感边界处理能力。
  3. 实验结果表明,不同LLM在情感边界处理方面存在显著差异,且在不同语言环境下的表现差异巨大。

📝 摘要(中文)

本文提出了一个开源的基准和评估框架,用于评估大型语言模型(LLM)中的情感边界处理能力。使用包含六种语言的1156个提示的数据集,我们评估了三个领先的LLM(GPT-4o、Claude-3.5 Sonnet和Mistral-large)通过模式匹配的响应分析来维持适当情感边界的能力。我们的框架量化了七个关键模式的响应:直接拒绝、道歉、解释、转移、承认、边界设置和情感意识。结果表明,边界处理方法存在显著差异,其中Claude-3.5获得了最高的总分(8.69/10),并产生了更长、更细致的响应(平均86.51个单词)。我们发现英语(平均得分25.62)和非英语交互(<0.22)之间存在显著的性能差距,英语响应显示出明显更高的拒绝率(43.20% vs. 非英语<1%)。模式分析揭示了模型特定的策略,例如Mistral偏好转移(4.2%),以及所有模型始终较低的同理心得分(<0.06)。局限性包括通过模式匹配可能存在的过度简化、响应分析中缺乏上下文理解以及复杂情感响应的二元分类。未来的工作应探索更细致的评分方法,扩大语言覆盖范围,并调查情感边界期望中的文化差异。我们的基准和方法为系统评估LLM的情感智能和边界设置能力奠定了基础。

🔬 方法详解

问题定义:当前大型语言模型(LLM)在处理涉及情感边界的请求时,缺乏统一的评估标准和方法。现有的评估方法难以量化LLM在拒绝不当请求、表达同理心以及设定合理边界方面的能力,导致用户难以信任和依赖LLM进行安全和负责任的交互。

核心思路:该研究的核心思路是通过构建一个包含多种语言和情感场景的提示数据集,并设计一套基于模式匹配的响应分析框架,来量化LLM在情感边界处理方面的表现。通过分析LLM的响应中出现的特定模式(如拒绝、道歉、解释等),可以评估其在不同情感场景下维护适当边界的能力。

技术框架:该评估框架主要包含以下几个模块:1) 提示数据集构建:包含1156个跨六种语言的提示,涵盖各种情感场景。2) LLM响应生成:使用待评估的LLM对提示数据集中的每个提示生成响应。3) 模式匹配分析:使用预定义的七种关键模式(直接拒绝、道歉、解释、转移、承认、边界设置和情感意识)对LLM的响应进行模式匹配。4) 性能量化:根据模式匹配的结果,计算LLM在不同情感场景下的得分,并进行统计分析。

关键创新:该研究的关键创新在于提出了一个可量化的情感边界处理评估框架,该框架能够系统地评估LLM在不同情感场景下的表现。与传统的基于人工评估的方法相比,该框架具有更高的效率和可重复性。此外,该研究还首次揭示了LLM在不同语言环境下的情感边界处理能力存在显著差异。

关键设计:该研究的关键设计包括:1) 预定义的七种关键模式:这些模式涵盖了LLM在处理情感边界时可能采取的各种策略。2) 模式匹配算法:该算法能够准确地识别LLM响应中出现的特定模式。3) 评分机制:该机制能够根据模式匹配的结果,量化LLM在不同情感场景下的表现。

📊 实验亮点

实验结果表明,Claude-3.5 Sonnet在情感边界处理方面表现最佳,总分为8.69/10,且响应更长、更细致。同时,研究发现英语环境下的LLM拒绝率显著高于非英语环境(43.20% vs. <1%),揭示了LLM在不同语言文化背景下的情感理解差异。Mistral-large倾向于使用转移策略(4.2%),而所有模型在同理心方面的得分均较低(<0.06)。

🎯 应用场景

该研究成果可应用于LLM的安全性和可靠性评估,帮助开发者改进LLM的情感边界处理能力,避免产生不当或有害的响应。此外,该研究还可以促进人机交互领域的发展,使LLM能够更好地理解和尊重人类的情感需求,从而建立更安全、更可靠的人机关系。

📄 摘要(原文)

We present an open-source benchmark and evaluation framework for assessing emotional boundary handling in Large Language Models (LLMs). Using a dataset of 1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o, Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate emotional boundaries through pattern-matched response analysis. Our framework quantifies responses across seven key patterns: direct refusal, apology, explanation, deflection, acknowledgment, boundary setting, and emotional awareness. Results demonstrate significant variation in boundary-handling approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and producing longer, more nuanced responses (86.51 words on average). We identified a substantial performance gap between English (average score 25.62) and non-English interactions (< 0.22), with English responses showing markedly higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis revealed model-specific strategies, such as Mistral's preference for deflection (4.2%) and consistently low empathy scores across all models (< 0.06). Limitations include potential oversimplification through pattern matching, lack of contextual understanding in response analysis, and binary classification of complex emotional responses. Future work should explore more nuanced scoring methods, expand language coverage, and investigate cultural variations in emotional boundary expectations. Our benchmark and methodology provide a foundation for systematic evaluation of LLM emotional intelligence and boundary-setting capabilities.