Explain Like I'm 5 or Whatever I Choose: Evaluating the Interactive Potential of Language Model Responses

作者: Indu Panigrahi, Tal August

分类: cs.CL, cs.HC

发布日期: 2026-06-05

备注: Preprint

💡 一句话要点

提出新评估框架以提升语言模型的互动潜力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 用户中心设计 复杂度评估 科学信息检索 交互式界面

📋 核心要点

现有的语言模型评估方法通常依赖于单一的静态聊天界面，未能适应新兴的交互式界面需求。
本文提出了一种基于用户反馈的新评估框架，专注于模型生成多样化响应的能力，特别是在语言复杂度方面。
实验结果表明，尽管模型在复杂度上有所变化，但大多数情况下变化不一致，最佳模型的可靠性仍有待提高。

📝 摘要（中文）

随着大型语言模型（LLMs）在科学信息检索任务中的应用日益增多，评估方法也逐渐向用户中心转变。然而，现有评估仍假设使用单一静态聊天界面。本文提出了一种新的评估框架，基于对16名参与者的形成性研究，测试模型在同一查询下生成不同语言复杂度响应的能力。我们评估了GPT-5.1、GPT-5 mini、Claude Sonnet 4.5 + Thinking和DeepSeek-V3.1，生成了98个科学查询的5个不同复杂度的响应。结果显示，尽管模型在响应复杂度上有所变化，但大多数变化不一致，表现最佳的Claude Sonnet 4.5仅在46%的情况下可靠地调整了复杂度。我们的发现在增加样本量和替代复杂度水平时仍然成立。

🔬 方法详解

问题定义：本文旨在解决现有语言模型评估方法在动态交互界面下的不足，特别是如何有效评估模型生成多样化响应的能力。现有方法未能考虑用户交互的复杂性和多样性。

核心思路：提出一种新的评估框架，基于用户的反馈和需求，测试模型在同一查询下生成不同复杂度响应的能力，以适应多样化的交互界面。

技术框架：评估流程包括参与者反馈收集、模型响应生成、复杂度评估和结果分析四个主要模块。通过对16名参与者的形成性研究，确定评估标准和复杂度等级。

关键创新：本研究的创新在于引入了用户中心设计的理念，评估模型在生成响应时的语言复杂度变化，而不是仅依赖静态的单一响应。

关键设计：在实验中，设置了不同的语言复杂度等级，并使用了多种语言模型进行对比，评估其在生成响应时的复杂度变化和一致性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，尽管模型在响应复杂度上有所变化，表现最佳的Claude Sonnet 4.5在可靠性上仅在46%的情况下成功调整复杂度。这一发现揭示了当前模型在动态交互场景下的局限性，为未来的研究提供了重要参考。

🎯 应用场景

该研究的评估框架可广泛应用于科学研究、教育和人机交互等领域，帮助开发更具交互性的语言模型，提升用户体验。未来，随着技术的进步，该框架还可能推动更智能的对话系统和信息检索工具的发展。

📄 摘要（原文）

Evaluations of large language models (LLMs) in scientific information seeking tasks have become increasingly use-centric, such as conducting live or multi-turn evaluations with real users. These evaluations still assume a single, static chat interface, but as models are integrated into new interfaces, evaluations must shift to incorporate interface-specific criteria. We propose a new evaluation framework based on a formative study with $16$ participants that tests models' ability to generate multiple responses to one query that differ along an interpretable axis of language (language complexity), inspired by direct manipulation interfaces from human-centered design literature. We evaluate GPT-5.1, GPT-5 mini, Claude Sonnet 4.5 + Thinking, and DeepSeek-V3.1 by generating 5 responses at different levels of language complexity for $98$ scientific queries. While models vary complexity across responses, most changes remain inconsistent, with the best performing model (Claude Sonnet 4.5) only shifting reliable complexity measures in the correct direction $46\%$ of the time. Our findings hold with increased sample size and alternative complexity levels.

Explain Like I'm 5 or Whatever I Choose: Evaluating the Interactive Potential of Language Model Responses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理