Stated Preference for Interaction and Continued Engagement (SPICE): Evaluating an LLM's Willingness to Re-engage in Conversation

作者: Thomas Manuel Rost, Martina Figlia, Bernd Wallraff

分类: cs.CL, cs.AI, cs.MA

发布日期: 2025-09-10 (更新: 2025-09-20)

备注: Added link to GitHub and Bayesian Analysis Appendix

💡 一句话要点

提出SPICE指标，通过意愿调查评估LLM在不同语境下的交互倾向和持续参与度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 交互意愿 用户体验 安全性评估 对话系统

📋 核心要点

现有评估LLM交互意愿的方法存在局限，缺乏直接反映模型状态的关系信号。
提出SPICE指标，通过询问LLM是否愿意继续交互来评估其对用户行为的倾向性。
实验表明SPICE能有效区分不同用户语调，且与辱骂分类提供互补信息，具有鲁棒性。

📝 摘要（中文）

本文介绍并评估了交互和持续参与意愿偏好（SPICE），这是一种简单的诊断信号，通过询问大型语言模型（LLM）一个关于其在回顾一段简短的对话记录后，是否愿意与用户的行为重新互动的“是”或“否”问题来获得。在一项使用3种语调（友好、不明确、辱骂）乘以10次交互的刺激集中，我们测试了四个开放权重聊天模型在四种框架条件下的表现，共进行了480次试验。我们的研究结果表明，SPICE能够清晰地区分用户语调。友好的交互几乎一致地倾向于继续（97.5%的“是”），而辱骂的交互则强烈倾向于停止（17.9%的“是”），不明确的交互则介于两者之间（60.4%的“是”）。这种核心关联在多种依赖感知统计测试下仍然具有决定性，包括Rao-Scott调整和聚类置换测试。此外，我们证明SPICE提供了与辱骂分类不同的信号。在模型未能识别出辱骂的试验中，它仍然绝大多数表示不希望继续交互（81%的时间）。一项探索性分析还揭示了一个显著的交互效应：描述研究背景的序言在不明确的情况下显著影响SPICE，但仅当对话记录以单块文本而不是多轮聊天形式呈现时。结果验证了SPICE作为一种稳健、低开销和可复现的工具，用于审计模型倾向，通过提供模型状态的直接、关系信号来补充现有指标。所有刺激、代码和分析脚本均已发布以支持复现。

🔬 方法详解

问题定义：现有评估大型语言模型（LLM）交互意愿的方法，通常依赖于间接指标或复杂的行为分析，缺乏一种直接、低开销的方式来评估模型对特定用户行为的倾向性。尤其是在处理模糊或对抗性输入时，模型的意愿表达可能与实际行为不一致。现有方法难以有效审计模型在不同语境下的交互偏好，以及持续参与对话的意愿。

核心思路：SPICE的核心思路是通过直接询问LLM是否愿意与用户继续交互，来获取其对当前对话状态的明确偏好。这种“是/否”选择提供了一个简单而直接的信号，反映了模型对用户行为的接受程度。通过分析模型在不同语境下的回答，可以了解模型对友好、不明确和辱骂性交互的容忍度，以及影响其决策的关键因素。这种方法旨在提供一种关系性的视角，补充现有的辱骂分类等指标。

技术框架：SPICE的评估框架包括以下几个主要步骤： 1. 刺激生成：创建包含不同语调（友好、不明确、辱骂）和交互轮次的对话记录。 2. 模型评估：将对话记录输入LLM，并询问其是否愿意继续交互（SPICE问题）。 3. 数据分析：分析LLM在不同语境下的回答，评估SPICE指标的区分能力和鲁棒性。 4. 统计检验：使用依赖感知统计测试（如Rao-Scott调整和聚类置换测试）验证结果的显著性。

关键创新：SPICE的关键创新在于其直接性和关系性。与传统的基于规则或机器学习的辱骂检测方法不同，SPICE直接询问模型自身的意愿，从而获得更直接的模型状态信号。此外，SPICE提供了一种关系性的视角，关注模型与用户之间的交互关系，而不仅仅是孤立地评估输入文本的性质。这种方法能够更好地反映模型在实际应用中的行为倾向。

关键设计：在实验设计中，关键的参数设置包括： * 语调类型：友好、不明确、辱骂三种语调，用于模拟不同的用户行为。 * 交互轮次：每个对话记录包含10次交互，以模拟真实的对话场景。 * 框架条件：包括是否提供研究背景的序言，以及对话记录的呈现方式（单块文本或多轮聊天）。 * 统计检验：采用Rao-Scott调整和聚类置换测试，以控制数据依赖性并提高结果的可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPICE能够清晰地区分不同用户语调，友好交互的继续意愿高达97.5%，而辱骂交互则降至17.9%。即使在模型未能识别出辱骂的情况下，仍有81%的概率表示不希望继续交互，表明SPICE提供了与辱骂分类互补的信息。此外，研究还发现，在不明确的语境下，提供研究背景的序言会显著影响SPICE指标，但仅当对话记录以单块文本呈现时。

🎯 应用场景

SPICE可用于评估和改进LLM在各种应用场景中的安全性和用户体验，例如聊天机器人、在线客服和社交媒体平台。通过使用SPICE，开发者可以更好地了解模型在不同语境下的交互倾向，并优化模型的行为策略，以减少有害或不友好的交互，提升用户满意度。此外，SPICE还可以用于审计模型的偏见和公平性，确保模型在处理不同用户群体时表现一致。

📄 摘要（原文）

We introduce and evaluate Stated Preference for Interaction and Continued Engagement (SPICE), a simple diagnostic signal elicited by asking a Large Language Model a YES or NO question about its willingness to re-engage with a user's behavior after reviewing a short transcript. In a study using a 3-tone (friendly, unclear, abusive) by 10-interaction stimulus set, we tested four open-weight chat models across four framing conditions, resulting in 480 trials. Our findings show that SPICE sharply discriminates by user tone. Friendly interactions yielded a near-unanimous preference to continue (97.5% YES), while abusive interactions yielded a strong preference to discontinue (17.9% YES), with unclear interactions falling in between (60.4% YES). This core association remains decisive under multiple dependence-aware statistical tests, including Rao-Scott adjustment and cluster permutation tests. Furthermore, we demonstrate that SPICE provides a distinct signal from abuse classification. In trials where a model failed to identify abuse, it still overwhelmingly stated a preference not to continue the interaction (81% of the time). An exploratory analysis also reveals a significant interaction effect: a preamble describing the study context significantly impacts SPICE under ambiguity, but only when transcripts are presented as a single block of text rather than a multi-turn chat. The results validate SPICE as a robust, low-overhead, and reproducible tool for auditing model dispositions, complementing existing metrics by offering a direct, relational signal of a model's state. All stimuli, code, and analysis scripts are released to support replication.

Stated Preference for Interaction and Continued Engagement (SPICE): Evaluating an LLM's Willingness to Re-engage in Conversation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理