Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

📄 arXiv: 2604.02315 📥 PDF

作者: Sarath Shekkizhar, Romain Cosentino, Adam Earle

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出用户轮次生成探针,评估语言模型交互感知能力,发现任务准确率与交互感知解耦。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 交互感知 用户轮次生成 对话系统 评估方法 后训练 上下文理解

📋 核心要点

  1. 现有LLM评测侧重助手回复质量,忽略了模型对后续交互的感知能力,无法全面评估模型的对话能力。
  2. 提出用户轮次生成探针,通过让模型模拟用户回复,评估其对上下文的理解和交互感知能力。
  3. 实验表明,任务准确率与交互感知解耦,高准确率模型未必具备良好的交互感知能力,需进一步研究。

📝 摘要(中文)

标准的大语言模型(LLM)评测主要关注助手轮次:模型对输入生成回复,验证器评估正确性,分析结束。这种模式忽略了LLM是否编码了对助手回复之后发生事情的感知。我们提出用户轮次生成作为对这一差距的探针:给定用户查询和助手回复的对话上下文,我们让模型以用户角色生成。如果模型的权重编码了交互感知,则生成的用户轮次将是对先前上下文有根据的后续反应。通过在11个开源LLM(Qwen3.5、gpt-oss、GLM)和5个数据集(数学推理、指令遵循、对话)上的实验,我们表明交互感知与任务准确性是解耦的。特别是在Qwen3.5系列中,GSM8K准确率从41%(0.8B)扩展到96.8%(397B-A17B),但在确定性生成下,真正的后续反应率仍然接近于零。相比之下,更高的温度采样揭示了交互感知是潜在的,后续反应率达到22%。受控扰动验证了所提出的探针测量了模型的真实属性,并且在Qwen3.5-2B上进行面向协作的后训练表明后续反应率有所提高。我们的结果表明,用户轮次生成捕获了LLM行为的一个维度——交互感知,而这在当前仅关注助手轮次的基准测试中是未被探索和不可见的。

🔬 方法详解

问题定义:现有LLM评估方法主要关注模型生成助手回复的质量,例如准确性、流畅性等。然而,这种评估方式忽略了模型是否具备对对话上下文的理解以及对后续交互的感知能力。换句话说,模型可能生成了正确的回复,但并不知道用户接下来会说什么,或者如何根据之前的对话内容进行更深入的交流。这种缺乏交互感知能力会限制LLM在实际对话场景中的应用。

核心思路:本文的核心思路是利用用户轮次生成作为一种探针,来评估LLM的交互感知能力。具体来说,给定一个对话上下文(包括用户查询和助手回复),让模型以用户的身份生成下一个轮次的回复。如果模型具备交互感知能力,那么它生成的回复应该能够合理地衔接之前的对话,并且能够针对助手回复的内容做出适当的反应。通过分析模型生成的用户回复,可以推断出模型是否真正理解了对话的上下文,以及是否具备对后续交互的预测能力。

技术框架:该方法的技术框架主要包括以下几个步骤:1) 选择或构建包含用户查询和助手回复的对话数据集;2) 使用LLM以用户身份生成下一个轮次的回复,给定之前的对话上下文;3) 设计评估指标来衡量生成的用户回复的质量,例如是否与上下文相关、是否合理地衔接之前的对话等;4) 分析实验结果,评估不同LLM的交互感知能力,并探讨影响交互感知能力的因素。

关键创新:本文最重要的技术创新点在于提出了用户轮次生成作为一种评估LLM交互感知能力的新方法。与传统的评估方法相比,该方法更加关注模型对对话上下文的理解和对后续交互的预测能力,能够更全面地评估LLM的对话能力。此外,该方法还能够帮助研究人员发现LLM在交互感知方面的不足,并为改进LLM的对话能力提供指导。

关键设计:在实验中,作者使用了多种开源LLM(例如Qwen3.5、gpt-oss、GLM)和多个对话数据集(包括数学推理、指令遵循、对话等)。为了评估生成的用户回复的质量,作者设计了一些评估指标,例如后续反应率(follow-up rates),即生成的用户回复是否能够合理地衔接之前的对话。此外,作者还使用了不同的采样策略(例如确定性生成和高温度采样)来研究采样策略对交互感知能力的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在GSM8K数学推理任务中,Qwen3.5模型的准确率从41% (0.8B参数) 提升到 96.8% (397B-A17B参数),但在确定性生成下,其后续反应率仍然接近于零。然而,通过提高温度采样,后续反应率可以达到22%,表明交互感知能力是潜在存在的。此外,面向协作的后训练可以有效提高Qwen3.5-2B模型的后续反应率。

🎯 应用场景

该研究成果可应用于提升对话系统的智能化水平,例如智能客服、聊天机器人等。通过提高LLM的交互感知能力,可以使对话系统更好地理解用户的意图,并生成更自然、更流畅的回复,从而提升用户体验。此外,该研究还可以为LLM的训练提供指导,例如可以通过引入面向协作的训练方法来提高LLM的交互感知能力。

📄 摘要(原文)

Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across $11$ open-weight LLMs (Qwen3.5, gpt-oss, GLM) and $5$ datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from $41\%$ ($0.8$B) to $96.8\%$ ($397$B-A$17$B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching $22\%$. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.