Human-Centered Evaluation of RAG outputs: a framework and questionnaire for human-AI collaboration
作者: Aline Mangold, Kiran Hoffmann
分类: cs.AI
发布日期: 2025-09-30
💡 一句话要点
提出一套以人为中心的RAG输出评估框架与问卷,提升人机协作效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 RAG评估 人机协作 用户体验 问卷调查
📋 核心要点
- 现有RAG系统评估缺乏以人为中心的系统性方法,难以有效提升用户体验和人机协作。
- 设计并迭代优化了一套以人为中心的问卷,从多个维度评估RAG输出,关注用户意图和信息可验证性。
- 实验表明,LLM在某些评估维度上表现良好,但在文本格式识别上存在不足,人与LLM评分存在差异。
📝 摘要(中文)
检索增强生成(RAG)系统越来越多地部署在面向用户的应用程序中,但对其输出进行系统的、以人为中心的评估仍未得到充分探索。本文基于Gienapp的效用维度框架,设计了一份以人为中心的问卷,用于评估RAG输出的12个维度。通过对一系列查询-输出对进行多轮评分和语义讨论,迭代地改进了问卷。最终,纳入了来自人类评分者和人类-LLM对的反馈。结果表明,大型语言模型(LLM)能够可靠地关注指标描述和比例标签,但在检测文本格式变化方面存在不足。人类难以严格关注指标描述和标签。LLM评分和解释被认为是有益的支持,但LLM和人类的数字评分缺乏一致性。最终的问卷通过关注用户意图、文本结构和信息可验证性,扩展了最初的框架。
🔬 方法详解
问题定义:论文旨在解决RAG系统输出质量评估中缺乏以人为中心方法的问题。现有评估方法往往侧重于自动化指标,忽略了用户体验和人机协作的关键因素,导致RAG系统难以真正满足用户需求。现有方法的痛点在于无法有效衡量RAG输出的实用性、可信度和用户满意度。
核心思路:论文的核心思路是构建一个以人为中心的评估框架,通过问卷调查的方式,从多个维度评估RAG系统的输出质量。该框架借鉴了Gienapp的效用维度框架,并结合了用户意图、文本结构和信息可验证性等关键因素,旨在更全面地评估RAG系统的性能。
技术框架:该方法主要包含以下几个阶段:1) 基于Gienapp框架设计初始问卷;2) 通过多轮人类评分和语义讨论迭代优化问卷;3) 引入LLM辅助评分,并比较LLM和人类评分的差异;4) 根据实验结果和反馈,最终完善问卷,使其更关注用户意图、文本结构和信息可验证性。整体流程是一个迭代改进的过程,旨在构建一个更有效、更可靠的RAG系统评估工具。
关键创新:该论文的关键创新在于提出了一个以人为中心的RAG输出评估框架,并设计了一套相应的问卷。与现有方法相比,该框架更关注用户体验和人机协作,能够更全面地评估RAG系统的性能。此外,该研究还探索了LLM在RAG系统评估中的应用,并分析了LLM和人类评分的差异。
关键设计:问卷包含12个维度,涵盖了RAG输出的实用性、可信度、可理解性等方面。在问卷设计中,特别关注了用户意图、文本结构和信息可验证性。实验中,采用了人工评分和LLM辅助评分相结合的方式,并对评分结果进行了统计分析和语义讨论。具体参数设置和损失函数等技术细节未在摘要中提及,属于未知信息。
📊 实验亮点
实验结果表明,LLM在指标描述和比例标签方面表现良好,但在文本格式识别方面存在不足。人类难以严格关注指标描述和标签。LLM评分和解释被认为是有益的支持,但LLM和人类的数字评分缺乏一致性。这些发现为RAG系统的评估和改进提供了有价值的参考。
🎯 应用场景
该研究成果可应用于各种需要RAG系统的场景,例如智能客服、知识问答、内容生成等。通过使用该评估框架和问卷,可以更有效地评估和改进RAG系统的输出质量,提升用户体验和人机协作效率。未来,该研究可以进一步扩展到其他类型的生成式模型,并探索更有效的LLM辅助评估方法。
📄 摘要(原文)
Retrieval-augmented generation (RAG) systems are increasingly deployed in user-facing applications, yet systematic, human-centered evaluation of their outputs remains underexplored. Building on Gienapp's utility-dimension framework, we designed a human-centred questionnaire that assesses RAG outputs across 12 dimensions. We iteratively refined the questionnaire through several rounds of ratings on a set of query-output pairs and semantic discussions. Ultimately, we incorporated feedback from both a human rater and a human-LLM pair. Results indicate that while large language models (LLMs) reliably focus on metric descriptions and scale labels, they exhibit weaknesses in detecting textual format variations. Humans struggled to focus strictly on metric descriptions and labels. LLM ratings and explanations were viewed as a helpful support, but numeric LLM and human ratings lacked agreement. The final questionnaire extends the initial framework by focusing on user intent, text structuring, and information verifiability.