Automating Thematic Analysis: How LLMs Analyse Controversial Topics

📄 arXiv: 2405.06919v1 📥 PDF

作者: Awais Hameed Khan, Hiruni Kegalle, Rhea D'Silva, Ned Watt, Daniel Whelan-Shamy, Lida Ghahremanlou, Liam Magee

分类: cs.CY, cs.CL

发布日期: 2024-05-11

备注: 18 pages, 6 figures

期刊: Microsoft Journal for Applied Research, Vol 21 (2024), pp 69 - 87


💡 一句话要点

利用大型语言模型自动化主题分析,探索其在争议性话题分析中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 主题分析 争议性话题 定性研究 自动化 Robodebt丑闻 GPT-4 Llama 2

📋 核心要点

  1. 传统文本处理系统缺乏对上下文和细微差别的敏感性,难以有效分析争议性话题。
  2. 利用大型语言模型进行主题分析,旨在增强人类的认知和推理能力,辅助复杂环境下的“意义构建”。
  3. 通过对比人类与LLMs在Robodebt丑闻分析中的主题分类,揭示了二者间的异同,并探讨了LLMs的应用潜力。

📝 摘要(中文)

本文探讨了大型语言模型(LLMs)在主题分析中的应用潜力,认为LLMs能够增强人类的认知、推理能力,并支持“意义构建”,即通过分析大量数据,理解复杂环境或主题。论文通过一个初步实验,比较了人类研究者和两个LLMs(GPT-4和Llama 2)对澳大利亚Robodebt丑闻媒体报道的摘录进行分类的方式。研究结果揭示了人类和机器在主题分类中存在的有趣重叠和差异,并指出了LLMs在支持话语和主题分析方面的有效性。论文强调LLMs应被用于增强而非取代人类的解读,并为自动化在定性研究方法中的应用提供了方法论见解和反思。此外,论文还介绍了一种新颖的基于卡片的设计工具包,供研究人员和实践者进一步探索LLMs作为分析工具。

🔬 方法详解

问题定义:论文旨在探索如何利用大型语言模型(LLMs)自动化主题分析,尤其是在处理具有争议性的话题时。现有方法,如传统文本处理系统,在理解上下文、捕捉细微差别以及进行复杂推理方面存在不足,导致难以有效分析此类话题。此外,人工进行主题分析耗时耗力,且容易受到主观偏见的影响。

核心思路:论文的核心思路是利用LLMs强大的自然语言理解和生成能力,模拟人类研究者进行主题分析的过程。通过将文本数据输入LLMs,并设计合适的提示词(prompts),引导LLMs识别、提取和归纳文本中的主题。同时,将LLMs的分析结果与人类研究者的分析结果进行对比,评估LLMs在主题分析方面的能力和局限性。

技术框架:论文采用的实验框架主要包括以下几个步骤:1) 收集关于澳大利亚Robodebt丑闻的媒体报道文本数据;2) 由人类研究者对文本数据进行主题分析,作为基准;3) 使用GPT-4和Llama 2两个LLMs,并设计不同的提示词,对文本数据进行主题分析;4) 对比人类研究者和LLMs的主题分析结果,评估LLMs的性能。此外,论文还设计了一个基于卡片的设计工具包,用于辅助研究人员和实践者探索LLMs作为分析工具。

关键创新:论文的关键创新在于:1) 将LLMs应用于争议性话题的主题分析,探索了LLMs在定性研究方法中的应用潜力;2) 对比了人类研究者和LLMs的主题分析结果,揭示了二者间的异同,为LLMs在主题分析中的应用提供了经验证据;3) 提出了一个基于卡片的设计工具包,为研究人员和实践者提供了探索LLMs作为分析工具的实用工具。

关键设计:论文的关键设计包括:1) 提示词的设计:设计不同的提示词,引导LLMs识别、提取和归纳文本中的主题;2) 对比指标的选择:选择合适的指标,对比人类研究者和LLMs的主题分析结果,例如主题的一致性、覆盖率等;3) 工具包的设计:设计基于卡片的设计工具包,提供不同的卡片,引导用户探索LLMs的不同功能和参数设置。

📊 实验亮点

实验结果表明,LLMs在主题分析方面具有一定的潜力,能够识别和提取文本中的主要主题。然而,LLMs在理解上下文、捕捉细微差别以及进行复杂推理方面仍存在局限性。例如,LLMs可能会过度概括或忽略一些重要的细节。因此,论文强调LLMs应被用于增强而非取代人类的解读,人类研究者需要对LLMs的分析结果进行审查和修正。

🎯 应用场景

该研究成果可应用于多个领域,例如舆情分析、政策研究、社会科学研究等。通过自动化主题分析,可以更高效地处理大量文本数据,发现隐藏在数据中的模式和趋势,为决策提供支持。未来,该研究可以进一步扩展到其他类型的文本数据,例如社交媒体数据、用户评论等,并与其他自然语言处理技术相结合,提高主题分析的准确性和效率。

📄 摘要(原文)

Large Language Models (LLMs) are promising analytical tools. They can augment human epistemic, cognitive and reasoning abilities, and support 'sensemaking', making sense of a complex environment or subject by analysing large volumes of data with a sensitivity to context and nuance absent in earlier text processing systems. This paper presents a pilot experiment that explores how LLMs can support thematic analysis of controversial topics. We compare how human researchers and two LLMs GPT-4 and Llama 2 categorise excerpts from media coverage of the controversial Australian Robodebt scandal. Our findings highlight intriguing overlaps and variances in thematic categorisation between human and machine agents, and suggest where LLMs can be effective in supporting forms of discourse and thematic analysis. We argue LLMs should be used to augment, and not replace human interpretation, and we add further methodological insights and reflections to existing research on the application of automation to qualitative research methods. We also introduce a novel card-based design toolkit, for both researchers and practitioners to further interrogate LLMs as analytical tools.