Assessing the Reliability of Large Language Models for Deductive Qualitative Coding: A Comparative Study of ChatGPT Interventions
作者: Angjelin Hila, Elliott Hauser
分类: cs.HC, cs.CL
发布日期: 2025-07-18
备注: Extended version of paper accepted for presentation at the ASIS&T Annual Meeting 2025. 38 pages, 12 figures
💡 一句话要点
利用大型语言模型进行演绎定性编码:ChatGPT干预的比较研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 演绎定性编码 ChatGPT 任务分解 可靠性评估
📋 核心要点
- 现有研究较少关注LLM在演绎定性编码中的潜力,本研究旨在探索LLM在结构化演绎分类任务中的应用。
- 提出一种新颖的逐步任务分解策略,并结合零样本、少样本和基于定义的干预方法,提升LLM在演绎编码任务中的性能。
- 实验结果表明,通过定制干预,LLM在演绎编码任务中可以达到较高的可靠性水平,适合集成到实际工作流程中。
📝 摘要(中文)
本研究探讨了大型语言模型(LLM),特别是ChatGPT,在结构化演绎定性编码中的应用。现有研究主要集中于归纳编码,而我们关注LLM在执行与已建立的人工编码方案对齐的演绎分类任务方面的潜力。我们使用比较议程项目(CAP)主编码手册,将美国最高法院案件摘要分类为21个主要政策领域。我们测试了四种干预方法:零样本、少样本、基于定义和一种新颖的逐步任务分解策略,并在重复样本中进行测试。使用标准分类指标(准确率、F1分数、Cohen's kappa、Krippendorff's alpha)评估性能,并使用卡方检验和Cramer's V评估结构效度。卡方检验和效应量分析证实,干预策略显著影响分类行为,Cramer's V值范围为0.359至0.613,表明分类模式发生中等到强烈的变化。逐步任务分解策略实现了最强的可靠性(准确率=0.775,kappa=0.744,alpha=0.746),达到了实质性一致的阈值。尽管案件摘要中存在语义模糊性,但ChatGPT在样本中表现出稳定的一致性,包括在低支持子类中获得高F1分数。这些发现表明,通过有针对性的定制干预,LLM可以达到适合集成到严格的定性编码工作流程中的可靠性水平。
🔬 方法详解
问题定义:本研究旨在解决如何利用大型语言模型(LLM)进行可靠的演绎定性编码的问题。现有方法主要集中于归纳编码,而忽略了LLM在执行与预定义编码方案对齐的演绎分类任务方面的潜力。现有的基于LLM的编码方法在处理语义模糊的文本时,可靠性较低,难以满足实际应用的需求。
核心思路:本研究的核心思路是通过设计不同的干预策略,引导LLM更好地理解和应用预定义的编码方案。特别是,提出了逐步任务分解策略,将复杂的编码任务分解为更小的、更易于处理的子任务,从而提高LLM的编码准确性和一致性。
技术框架:本研究的技术框架包括以下几个主要步骤:1)选择合适的LLM(本研究中使用ChatGPT);2)构建数据集,包括美国最高法院案件摘要和对应的CAP主编码手册;3)设计四种干预方法:零样本、少样本、基于定义和逐步任务分解;4)使用不同的干预方法对LLM进行训练和测试;5)使用标准分类指标(准确率、F1分数、Cohen's kappa、Krippendorff's alpha)评估性能,并使用卡方检验和Cramer's V评估结构效度。
关键创新:本研究最重要的技术创新点在于提出了逐步任务分解策略。与传统的零样本、少样本和基于定义的干预方法相比,逐步任务分解策略能够更好地引导LLM理解和应用预定义的编码方案,从而提高编码的准确性和一致性。这种方法通过将复杂的任务分解为更小的步骤,降低了LLM的理解难度,使其能够更好地捕捉文本中的关键信息。
关键设计:逐步任务分解策略的具体设计包括以下几个步骤:1)定义编码任务的目标;2)将编码任务分解为若干个子任务;3)为每个子任务设计相应的提示语;4)将子任务的输出组合成最终的编码结果。在实验中,研究人员根据CAP主编码手册的具体内容,设计了针对不同政策领域的子任务和提示语。此外,研究人员还探索了不同的参数设置,例如提示语的长度、子任务的数量等,以优化逐步任务分解策略的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,逐步任务分解策略在演绎定性编码任务中取得了最佳性能,准确率达到0.775,kappa系数达到0.744,alpha系数达到0.746,达到了实质性一致的阈值。此外,ChatGPT在低支持子类中也表现出高F1分数,表明其具有较强的泛化能力。Cramer's V值范围为0.359至0.613,表明干预策略对分类模式产生了显著影响。
🎯 应用场景
该研究成果可应用于社会科学、政治学、法律等领域,辅助研究人员进行大规模文本数据的定性分析和编码。通过提高编码效率和一致性,可以加速研究进程,并提升研究结果的可靠性。未来,该方法有望应用于舆情分析、政策评估、内容审核等领域,具有广阔的应用前景。
📄 摘要(原文)
In this study, we investigate the use of large language models (LLMs), specifically ChatGPT, for structured deductive qualitative coding. While most current research emphasizes inductive coding applications, we address the underexplored potential of LLMs to perform deductive classification tasks aligned with established human-coded schemes. Using the Comparative Agendas Project (CAP) Master Codebook, we classified U.S. Supreme Court case summaries into 21 major policy domains. We tested four intervention methods: zero-shot, few-shot, definition-based, and a novel Step-by-Step Task Decomposition strategy, across repeated samples. Performance was evaluated using standard classification metrics (accuracy, F1-score, Cohen's kappa, Krippendorff's alpha), and construct validity was assessed using chi-squared tests and Cramer's V. Chi-squared and effect size analyses confirmed that intervention strategies significantly influenced classification behavior, with Cramer's V values ranging from 0.359 to 0.613, indicating moderate to strong shifts in classification patterns. The Step-by-Step Task Decomposition strategy achieved the strongest reliability (accuracy = 0.775, kappa = 0.744, alpha = 0.746), achieving thresholds for substantial agreement. Despite the semantic ambiguity within case summaries, ChatGPT displayed stable agreement across samples, including high F1 scores in low-support subclasses. These findings demonstrate that with targeted, custom-tailored interventions, LLMs can achieve reliability levels suitable for integration into rigorous qualitative coding workflows.