Explain Like I'm 5 or Whatever I Choose: Evaluating the Interactive Potential of Language Model Responses
作者: Indu Panigrahi, Tal August
分类: cs.CL, cs.HC
发布日期: 2026-06-05
备注: Preprint
💡 一句话要点
提出新评估框架以提升语言模型的互动潜力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 用户中心设计 复杂度评估 科学信息检索 交互式界面
📋 核心要点
- 现有的语言模型评估方法通常依赖于单一的静态聊天界面,未能适应新兴的交互式界面需求。
- 本文提出了一种基于用户反馈的新评估框架,专注于模型生成多样化响应的能力,特别是在语言复杂度方面。
- 实验结果表明,尽管模型在复杂度上有所变化,但大多数情况下变化不一致,最佳模型的可靠性仍有待提高。
📝 摘要(中文)
随着大型语言模型(LLMs)在科学信息检索任务中的应用日益增多,评估方法也逐渐向用户中心转变。然而,现有评估仍假设使用单一静态聊天界面。本文提出了一种新的评估框架,基于对16名参与者的形成性研究,测试模型在同一查询下生成不同语言复杂度响应的能力。我们评估了GPT-5.1、GPT-5 mini、Claude Sonnet 4.5 + Thinking和DeepSeek-V3.1,生成了98个科学查询的5个不同复杂度的响应。结果显示,尽管模型在响应复杂度上有所变化,但大多数变化不一致,表现最佳的Claude Sonnet 4.5仅在46%的情况下可靠地调整了复杂度。我们的发现在增加样本量和替代复杂度水平时仍然成立。
🔬 方法详解
问题定义:本文旨在解决现有语言模型评估方法在动态交互界面下的不足,特别是如何有效评估模型生成多样化响应的能力。现有方法未能考虑用户交互的复杂性和多样性。
核心思路:提出一种新的评估框架,基于用户的反馈和需求,测试模型在同一查询下生成不同复杂度响应的能力,以适应多样化的交互界面。
技术框架:评估流程包括参与者反馈收集、模型响应生成、复杂度评估和结果分析四个主要模块。通过对16名参与者的形成性研究,确定评估标准和复杂度等级。
关键创新:本研究的创新在于引入了用户中心设计的理念,评估模型在生成响应时的语言复杂度变化,而不是仅依赖静态的单一响应。
关键设计:在实验中,设置了不同的语言复杂度等级,并使用了多种语言模型进行对比,评估其在生成响应时的复杂度变化和一致性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,尽管模型在响应复杂度上有所变化,表现最佳的Claude Sonnet 4.5在可靠性上仅在46%的情况下成功调整复杂度。这一发现揭示了当前模型在动态交互场景下的局限性,为未来的研究提供了重要参考。
🎯 应用场景
该研究的评估框架可广泛应用于科学研究、教育和人机交互等领域,帮助开发更具交互性的语言模型,提升用户体验。未来,随着技术的进步,该框架还可能推动更智能的对话系统和信息检索工具的发展。
📄 摘要(原文)
Evaluations of large language models (LLMs) in scientific information seeking tasks have become increasingly use-centric, such as conducting live or multi-turn evaluations with real users. These evaluations still assume a single, static chat interface, but as models are integrated into new interfaces, evaluations must shift to incorporate interface-specific criteria. We propose a new evaluation framework based on a formative study with $16$ participants that tests models' ability to generate multiple responses to one query that differ along an interpretable axis of language (language complexity), inspired by direct manipulation interfaces from human-centered design literature. We evaluate GPT-5.1, GPT-5 mini, Claude Sonnet 4.5 + Thinking, and DeepSeek-V3.1 by generating 5 responses at different levels of language complexity for $98$ scientific queries. While models vary complexity across responses, most changes remain inconsistent, with the best performing model (Claude Sonnet 4.5) only shifting reliable complexity measures in the correct direction $46\%$ of the time. Our findings hold with increased sample size and alternative complexity levels.