Understand User Opinions of Large Language Models via LLM-Powered In-the-Moment User Experience Interviews

📄 arXiv: 2502.15226v2 📥 PDF

作者: Mengqiao Liu, Tevin Wang, Cassandra A. Cohen, Sarah Li, Chenyan Xiong

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-02-21 (更新: 2025-06-10)

🔗 代码/项目: GITHUB


💡 一句话要点

CLUE:利用LLM进行用户体验访谈,深入理解用户对大型语言模型的观点

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 用户体验 用户访谈 LLM评估 人机交互

📋 核心要点

  1. 现有LLM评估方法难以捕捉用户在使用过程中的真实感受和细微观点。
  2. CLUE通过LLM驱动的即时用户体验访谈,直接收集用户在使用LLM后的反馈。
  3. 实验表明,CLUE能够有效捕捉用户对LLM的观点,例如对DeepSeek-R1推理过程的争议。

📝 摘要(中文)

本文提出了一种名为CLUE的基于LLM的访谈系统,用于在用户与大型语言模型(LLM)交互后,即时进行用户体验访谈,并自动从大量的访谈记录中收集关于用户观点的见解。通过招募数千名用户与目标LLM进行对话,然后接受CLUE的访谈,我们进行了一项研究,以了解用户对主流LLM的看法。实验表明,CLUE能够捕捉到有趣的用户观点,例如,用户对DeepSeek-R1所展示的推理过程的两极分化看法,以及对信息新鲜度和多模态的需求。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估方法主要集中在客观指标和预定义任务上,难以捕捉用户在使用LLM过程中的主观感受、体验和细微的观点。用户体验访谈虽然可以深入了解用户观点,但传统方法成本高昂,难以规模化应用。因此,如何高效、规模化地收集和分析用户对LLM的真实体验和观点是一个亟待解决的问题。

核心思路:本文的核心思路是利用LLM本身的能力,构建一个自动化的用户体验访谈系统CLUE。CLUE在用户与目标LLM交互后,立即进行访谈,并利用LLM对访谈记录进行分析,从而大规模地收集和理解用户对LLM的观点。这种方法降低了人工成本,提高了访谈效率,并能够捕捉到更细致的用户反馈。

技术框架:CLUE系统主要包含以下几个模块:1) 用户交互模块:用户与目标LLM进行对话。2) 访谈模块:用户完成与目标LLM的交互后,CLUE启动访谈,通过预设的问题引导用户表达他们的观点和感受。3) 分析模块:利用LLM对访谈记录进行分析,提取关键信息,总结用户观点。4) 结果展示模块:将分析结果以可视化的方式呈现,方便研究人员理解用户对LLM的看法。

关键创新:CLUE的关键创新在于将LLM应用于用户体验访谈,实现了访谈过程的自动化和规模化。与传统的用户体验访谈方法相比,CLUE能够以更低的成本和更高的效率收集和分析用户观点。此外,CLUE还能够捕捉到用户在使用LLM过程中的即时感受,从而提供更真实、更细致的用户反馈。

关键设计:CLUE的访谈模块采用预设问题的方式引导用户表达观点,问题设计需要考虑到LLM的特点和用户的使用场景。分析模块利用LLM进行文本摘要、情感分析和主题提取等任务,从而提取关键信息。具体LLM的选择和参数设置需要根据实际应用场景进行调整。此外,为了保证访谈的质量和数据的可靠性,需要对访谈过程进行监控和评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLUE能够有效捕捉用户对主流LLM的观点,例如用户对DeepSeek-R1所展示的推理过程存在两极分化的看法,以及用户对信息新鲜度和多模态的需求。这些发现为LLM的改进提供了有价值的参考。

🎯 应用场景

该研究成果可应用于LLM的评估和改进,帮助开发者更好地理解用户需求,优化LLM的性能和用户体验。此外,该方法还可以推广到其他人机交互领域,例如智能助手、虚拟现实等,用于收集和分析用户反馈,提升产品的用户满意度。

📄 摘要(原文)

Which large language model (LLM) is better? Every evaluation tells a story, but what do users really think about current LLMs? This paper presents CLUE, an LLM-powered interviewer that conducts in-the-moment user experience interviews, right after users interact with LLMs, and automatically gathers insights about user opinions from massive interview logs. We conduct a study with thousands of users to understand user opinions on mainstream LLMs, recruiting users to first chat with a target LLM and then be interviewed by CLUE. Our experiments demonstrate that CLUE captures interesting user opinions, e.g., the bipolar views on the displayed reasoning process of DeepSeek-R1 and demands for information freshness and multi-modality. Our code and data are at https://github.com/cxcscmu/LLM-Interviewer.