Evaluating Machine Expertise: How Graduate Students Develop Frameworks for Assessing GenAI Content
作者: Celia Chen, Alex Leitch
分类: cs.HC, cs.AI
发布日期: 2025-04-24
备注: Under review at ACM Web Science Conference 2025's Human-GenAI Interactions Workshop, 4 pages
💡 一句话要点
研究生如何评估GenAI内容:构建评估框架的影响因素研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人机交互 专业知识评估 职业身份 定性研究
📋 核心要点
- 现有研究缺乏对新兴专业人士如何评估和利用LLM生成内容的深入理解,尤其是在专业领域。
- 该研究通过定性方法,分析研究生与LLM互动过程,揭示其评估框架构建的关键影响因素。
- 研究发现职业身份、验证能力和系统导航经验显著影响学生对LLM输出的接受程度和使用方式。
📝 摘要(中文)
本文研究了研究生如何构建评估框架,以评估大型语言模型(LLM)在网络互动中产生的机器专业知识。通过一项结合调查、LLM互动记录和对14名研究生深度访谈的定性研究,我们识别了这些新兴专业人士评估和参与AI生成内容的模式。研究结果表明,学生构建的评估框架受三个主要因素影响:职业身份、验证能力和系统导航经验。学生并非统一接受或拒绝LLM的输出,而是保护对其职业身份至关重要的领域,同时委托其他领域——管理者保留概念性工作,设计师保护创造性过程,程序员保持对核心技术专长的控制。这些评估框架进一步受到学生验证不同类型内容的能力以及他们导航复杂系统的经验的影响。这项研究通过强调新兴的人机交互模式,并提出平台如何更好地支持用户开发有效的框架来评估AI介导的网络环境中机器生成的专业知识信号,从而为网络科学做出贡献。
🔬 方法详解
问题定义:论文旨在研究研究生群体如何评估大型语言模型(LLM)生成的专业知识内容。现有方法缺乏对用户如何根据自身专业背景和经验来判断LLM输出质量的理解,导致LLM在专业领域的应用受限。痛点在于无法有效利用LLM提升专业人士的工作效率和创造力,同时又避免过度依赖可能存在错误的AI生成内容。
核心思路:论文的核心思路是深入理解研究生在与LLM互动过程中所形成的评估框架。该框架并非简单的接受或拒绝LLM的输出,而是根据职业身份、验证能力和系统导航经验等因素进行动态调整。通过识别这些影响因素,可以为设计更有效的AI辅助工具提供指导,帮助用户更好地利用LLM的专业知识。
技术框架:该研究采用定性研究方法,主要包括以下几个阶段:1) 招募14名研究生参与研究;2) 通过调查问卷收集研究生的背景信息和对LLM的初步认知;3) 记录研究生与LLM的互动过程,包括互动文本和操作行为;4) 对研究生进行深度访谈,了解他们对LLM输出的评估标准和决策过程;5) 对收集到的数据进行分析,识别影响评估框架的关键因素。
关键创新:该研究的关键创新在于揭示了职业身份、验证能力和系统导航经验对用户评估LLM生成内容的影响。以往研究更多关注LLM本身的技术指标,而忽略了用户的主观认知和经验。该研究强调了用户在人机交互中的重要作用,为设计更以人为本的AI系统提供了新的视角。
关键设计:研究设计的关键在于选择合适的研究对象(研究生)和研究方法(定性研究)。研究生群体具有一定的专业知识,同时又相对缺乏实践经验,因此更容易受到LLM的影响。定性研究方法能够深入了解研究生的主观认知和决策过程,从而更全面地揭示影响评估框架的关键因素。研究中使用的调查问卷、互动记录和深度访谈等工具,也为数据收集和分析提供了有效的支持。
📊 实验亮点
研究发现,研究生在评估LLM生成内容时,会根据自身职业身份进行选择性接受。例如,管理者更倾向于保留概念性工作,设计师更注重保护创造性过程,程序员则坚持控制核心技术专长。这表明用户并非盲目信任AI,而是会根据自身专业领域和经验进行判断和调整。
🎯 应用场景
该研究成果可应用于开发更智能的AI辅助工具,帮助专业人士更有效地利用LLM。例如,可以根据用户的职业背景和经验,定制LLM的输出内容和呈现方式,提高用户对AI生成内容的信任度和使用意愿。此外,该研究还可以为教育领域提供指导,帮助学生培养批判性思维和信息素养,更好地应对AI时代的挑战。
📄 摘要(原文)
This paper examines how graduate students develop frameworks for evaluating machine-generated expertise in web-based interactions with large language models (LLMs). Through a qualitative study combining surveys, LLM interaction transcripts, and in-depth interviews with 14 graduate students, we identify patterns in how these emerging professionals assess and engage with AI-generated content. Our findings reveal that students construct evaluation frameworks shaped by three main factors: professional identity, verification capabilities, and system navigation experience. Rather than uniformly accepting or rejecting LLM outputs, students protect domains central to their professional identities while delegating others--with managers preserving conceptual work, designers safeguarding creative processes, and programmers maintaining control over core technical expertise. These evaluation frameworks are further influenced by students' ability to verify different types of content and their experience navigating complex systems. This research contributes to web science by highlighting emerging human-genAI interaction patterns and suggesting how platforms might better support users in developing effective frameworks for evaluating machine-generated expertise signals in AI-mediated web environments.