Understand User Opinions of Large Language Models via LLM-Powered In-the-Moment User Experience Interviews

作者: Mengqiao Liu, Tevin Wang, Cassandra A. Cohen, Sarah Li, Chenyan Xiong

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-02-21 (更新: 2025-06-10)

🔗 代码/项目: GITHUB

💡 一句话要点

CLUE：利用LLM进行用户体验访谈，深入理解用户对大型语言模型的观点

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 用户体验 用户访谈 LLM评估 人机交互

📋 核心要点

现有LLM评估方法难以捕捉用户在使用过程中的真实感受和细微观点。
CLUE通过LLM驱动的即时用户体验访谈，直接收集用户在使用LLM后的反馈。
实验表明，CLUE能够有效捕捉用户对LLM的观点，例如对DeepSeek-R1推理过程的争议。

📝 摘要（中文）

本文提出了一种名为CLUE的基于LLM的访谈系统，用于在用户与大型语言模型（LLM）交互后，即时进行用户体验访谈，并自动从大量的访谈记录中收集关于用户观点的见解。通过招募数千名用户与目标LLM进行对话，然后接受CLUE的访谈，我们进行了一项研究，以了解用户对主流LLM的看法。实验表明，CLUE能够捕捉到有趣的用户观点，例如，用户对DeepSeek-R1所展示的推理过程的两极分化看法，以及对信息新鲜度和多模态的需求。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）评估方法主要集中在客观指标和预定义任务上，难以捕捉用户在使用LLM过程中的主观感受、体验和细微的观点。用户体验访谈虽然可以深入了解用户观点，但传统方法成本高昂，难以规模化应用。因此，如何高效、规模化地收集和分析用户对LLM的真实体验和观点是一个亟待解决的问题。

核心思路：本文的核心思路是利用LLM本身的能力，构建一个自动化的用户体验访谈系统CLUE。CLUE在用户与目标LLM交互后，立即进行访谈，并利用LLM对访谈记录进行分析，从而大规模地收集和理解用户对LLM的观点。这种方法降低了人工成本，提高了访谈效率，并能够捕捉到更细致的用户反馈。

技术框架：CLUE系统主要包含以下几个模块：1) 用户交互模块：用户与目标LLM进行对话。2) 访谈模块：用户完成与目标LLM的交互后，CLUE启动访谈，通过预设的问题引导用户表达他们的观点和感受。3) 分析模块：利用LLM对访谈记录进行分析，提取关键信息，总结用户观点。4) 结果展示模块：将分析结果以可视化的方式呈现，方便研究人员理解用户对LLM的看法。

关键创新：CLUE的关键创新在于将LLM应用于用户体验访谈，实现了访谈过程的自动化和规模化。与传统的用户体验访谈方法相比，CLUE能够以更低的成本和更高的效率收集和分析用户观点。此外，CLUE还能够捕捉到用户在使用LLM过程中的即时感受，从而提供更真实、更细致的用户反馈。

关键设计：CLUE的访谈模块采用预设问题的方式引导用户表达观点，问题设计需要考虑到LLM的特点和用户的使用场景。分析模块利用LLM进行文本摘要、情感分析和主题提取等任务，从而提取关键信息。具体LLM的选择和参数设置需要根据实际应用场景进行调整。此外，为了保证访谈的质量和数据的可靠性，需要对访谈过程进行监控和评估。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CLUE能够有效捕捉用户对主流LLM的观点，例如用户对DeepSeek-R1所展示的推理过程存在两极分化的看法，以及用户对信息新鲜度和多模态的需求。这些发现为LLM的改进提供了有价值的参考。

🎯 应用场景

该研究成果可应用于LLM的评估和改进，帮助开发者更好地理解用户需求，优化LLM的性能和用户体验。此外，该方法还可以推广到其他人机交互领域，例如智能助手、虚拟现实等，用于收集和分析用户反馈，提升产品的用户满意度。

📄 摘要（原文）

Which large language model (LLM) is better? Every evaluation tells a story, but what do users really think about current LLMs? This paper presents CLUE, an LLM-powered interviewer that conducts in-the-moment user experience interviews, right after users interact with LLMs, and automatically gathers insights about user opinions from massive interview logs. We conduct a study with thousands of users to understand user opinions on mainstream LLMs, recruiting users to first chat with a target LLM and then be interviewed by CLUE. Our experiments demonstrate that CLUE captures interesting user opinions, e.g., the bipolar views on the displayed reasoning process of DeepSeek-R1 and demands for information freshness and multi-modality. Our code and data are at https://github.com/cxcscmu/LLM-Interviewer.

Understand User Opinions of Large Language Models via LLM-Powered In-the-Moment User Experience Interviews

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理