Stated Preference for Interaction and Continued Engagement (SPICE): Evaluating an LLM's Willingness to Re-engage in Conversation
作者: Thomas Manuel Rost, Martina Figlia, Bernd Wallraff
分类: cs.CL, cs.AI, cs.MA
发布日期: 2025-09-10 (更新: 2025-09-20)
备注: Added link to GitHub and Bayesian Analysis Appendix
💡 一句话要点
提出SPICE指标,通过意愿调查评估LLM在不同语境下的交互倾向和持续参与度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 交互意愿 用户体验 安全性评估 对话系统
📋 核心要点
- 现有评估LLM交互意愿的方法存在局限,缺乏直接反映模型状态的关系信号。
- 提出SPICE指标,通过询问LLM是否愿意继续交互来评估其对用户行为的倾向性。
- 实验表明SPICE能有效区分不同用户语调,且与辱骂分类提供互补信息,具有鲁棒性。
📝 摘要(中文)
本文介绍并评估了交互和持续参与意愿偏好(SPICE),这是一种简单的诊断信号,通过询问大型语言模型(LLM)一个关于其在回顾一段简短的对话记录后,是否愿意与用户的行为重新互动的“是”或“否”问题来获得。在一项使用3种语调(友好、不明确、辱骂)乘以10次交互的刺激集中,我们测试了四个开放权重聊天模型在四种框架条件下的表现,共进行了480次试验。我们的研究结果表明,SPICE能够清晰地区分用户语调。友好的交互几乎一致地倾向于继续(97.5%的“是”),而辱骂的交互则强烈倾向于停止(17.9%的“是”),不明确的交互则介于两者之间(60.4%的“是”)。这种核心关联在多种依赖感知统计测试下仍然具有决定性,包括Rao-Scott调整和聚类置换测试。此外,我们证明SPICE提供了与辱骂分类不同的信号。在模型未能识别出辱骂的试验中,它仍然绝大多数表示不希望继续交互(81%的时间)。一项探索性分析还揭示了一个显著的交互效应:描述研究背景的序言在不明确的情况下显著影响SPICE,但仅当对话记录以单块文本而不是多轮聊天形式呈现时。结果验证了SPICE作为一种稳健、低开销和可复现的工具,用于审计模型倾向,通过提供模型状态的直接、关系信号来补充现有指标。所有刺激、代码和分析脚本均已发布以支持复现。
🔬 方法详解
问题定义:现有评估大型语言模型(LLM)交互意愿的方法,通常依赖于间接指标或复杂的行为分析,缺乏一种直接、低开销的方式来评估模型对特定用户行为的倾向性。尤其是在处理模糊或对抗性输入时,模型的意愿表达可能与实际行为不一致。现有方法难以有效审计模型在不同语境下的交互偏好,以及持续参与对话的意愿。
核心思路:SPICE的核心思路是通过直接询问LLM是否愿意与用户继续交互,来获取其对当前对话状态的明确偏好。这种“是/否”选择提供了一个简单而直接的信号,反映了模型对用户行为的接受程度。通过分析模型在不同语境下的回答,可以了解模型对友好、不明确和辱骂性交互的容忍度,以及影响其决策的关键因素。这种方法旨在提供一种关系性的视角,补充现有的辱骂分类等指标。
技术框架:SPICE的评估框架包括以下几个主要步骤: 1. 刺激生成:创建包含不同语调(友好、不明确、辱骂)和交互轮次的对话记录。 2. 模型评估:将对话记录输入LLM,并询问其是否愿意继续交互(SPICE问题)。 3. 数据分析:分析LLM在不同语境下的回答,评估SPICE指标的区分能力和鲁棒性。 4. 统计检验:使用依赖感知统计测试(如Rao-Scott调整和聚类置换测试)验证结果的显著性。
关键创新:SPICE的关键创新在于其直接性和关系性。与传统的基于规则或机器学习的辱骂检测方法不同,SPICE直接询问模型自身的意愿,从而获得更直接的模型状态信号。此外,SPICE提供了一种关系性的视角,关注模型与用户之间的交互关系,而不仅仅是孤立地评估输入文本的性质。这种方法能够更好地反映模型在实际应用中的行为倾向。
关键设计:在实验设计中,关键的参数设置包括: * 语调类型:友好、不明确、辱骂三种语调,用于模拟不同的用户行为。 * 交互轮次:每个对话记录包含10次交互,以模拟真实的对话场景。 * 框架条件:包括是否提供研究背景的序言,以及对话记录的呈现方式(单块文本或多轮聊天)。 * 统计检验:采用Rao-Scott调整和聚类置换测试,以控制数据依赖性并提高结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SPICE能够清晰地区分不同用户语调,友好交互的继续意愿高达97.5%,而辱骂交互则降至17.9%。即使在模型未能识别出辱骂的情况下,仍有81%的概率表示不希望继续交互,表明SPICE提供了与辱骂分类互补的信息。此外,研究还发现,在不明确的语境下,提供研究背景的序言会显著影响SPICE指标,但仅当对话记录以单块文本呈现时。
🎯 应用场景
SPICE可用于评估和改进LLM在各种应用场景中的安全性和用户体验,例如聊天机器人、在线客服和社交媒体平台。通过使用SPICE,开发者可以更好地了解模型在不同语境下的交互倾向,并优化模型的行为策略,以减少有害或不友好的交互,提升用户满意度。此外,SPICE还可以用于审计模型的偏见和公平性,确保模型在处理不同用户群体时表现一致。
📄 摘要(原文)
We introduce and evaluate Stated Preference for Interaction and Continued Engagement (SPICE), a simple diagnostic signal elicited by asking a Large Language Model a YES or NO question about its willingness to re-engage with a user's behavior after reviewing a short transcript. In a study using a 3-tone (friendly, unclear, abusive) by 10-interaction stimulus set, we tested four open-weight chat models across four framing conditions, resulting in 480 trials. Our findings show that SPICE sharply discriminates by user tone. Friendly interactions yielded a near-unanimous preference to continue (97.5% YES), while abusive interactions yielded a strong preference to discontinue (17.9% YES), with unclear interactions falling in between (60.4% YES). This core association remains decisive under multiple dependence-aware statistical tests, including Rao-Scott adjustment and cluster permutation tests. Furthermore, we demonstrate that SPICE provides a distinct signal from abuse classification. In trials where a model failed to identify abuse, it still overwhelmingly stated a preference not to continue the interaction (81% of the time). An exploratory analysis also reveals a significant interaction effect: a preamble describing the study context significantly impacts SPICE under ambiguity, but only when transcripts are presented as a single block of text rather than a multi-turn chat. The results validate SPICE as a robust, low-overhead, and reproducible tool for auditing model dispositions, complementing existing metrics by offering a direct, relational signal of a model's state. All stimuli, code, and analysis scripts are released to support replication.