Complementary Learning Approach for Text Classification using Large Language Models
作者: Navid Asgari, Benjamin M. Cole
分类: cs.CL, cs.AI
发布日期: 2025-12-08 (更新: 2025-12-28)
备注: After further review, we identified substantive issues that materially affect the validity of the manuscript's core results and conclusions. Addressing these would require a fundamental reworking of the analysis and framing. To maintain the integrity of the public record, we request withdrawal of this version
DOI: 10.2139/ssrn.5577090
💡 一句话要点
提出一种互补学习方法,利用大语言模型进行文本分类,兼顾成本效益与研究严谨性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本分类 大型语言模型 互补学习 人机协作 少样本学习
📋 核心要点
- 现有文本分类方法在处理复杂语义和领域知识时存在局限性,大型语言模型虽强大但成本高昂且存在固有弱点。
- 该方法的核心思想是结合人类学者的溯因推理能力和大型语言模型的计算能力,形成互补优势,从而提升文本分类的准确性和效率。
- 通过对1934篇医药联盟新闻稿的实验,验证了该方法在人机协作文本分类中的有效性,并展示了如何利用该方法分析人机评分差异。
📝 摘要(中文)
本研究提出了一种结构化的方法,以经济高效且精简的方式利用大型语言模型(LLM),整合学者和机器的优势,同时弥补各自的弱点。我们的方法借鉴了计算机科学中的思维链和少样本学习提示,将定性研究中合作团队的最佳实践扩展到定量研究中的人机团队。这使得人类能够利用溯因推理和自然语言,不仅探究机器做了什么,还能探究人类做了什么。我们的方法强调了学者如何使用谨慎、低成本的技术来管理LLM固有的弱点。我们展示了如何使用该方法来调查人机评分差异,样本为1934篇宣布制药联盟的新闻稿(1990-2017年)。
🔬 方法详解
问题定义:论文旨在解决如何有效利用大型语言模型(LLM)进行文本分类的问题,尤其是在资源有限的情况下。现有方法要么依赖于完全的人工标注,成本高昂;要么直接使用LLM,但LLM可能存在偏见、幻觉等问题,导致分类结果不准确。因此,如何在保证分类质量的同时,降低成本,并减轻LLM的固有弱点,是本研究要解决的核心问题。
核心思路:论文的核心思路是采用一种互补学习的方法,将人类学者的专业知识和溯因推理能力与LLM的计算能力相结合。通过人机协作,学者可以利用LLM进行初步分类,然后对LLM的分类结果进行审查和修正,从而提高分类的准确性和可靠性。这种方法旨在充分利用LLM的优势,同时减轻其弱点。
技术框架:该方法的技术框架主要包括以下几个阶段:1) 使用LLM进行少样本学习,对文本进行初步分类;2) 人类学者审查LLM的分类结果,并识别出人机评分差异;3) 学者利用溯因推理和自然语言,分析人机评分差异的原因;4) 根据分析结果,修正LLM的分类结果,并更新LLM的知识库;5) 迭代上述过程,不断提高LLM的分类能力。
关键创新:该方法最重要的技术创新点在于其互补学习的框架,它强调了人类学者在文本分类过程中的作用。与传统的自动化文本分类方法不同,该方法将人类学者视为一个重要的组成部分,利用他们的专业知识和溯因推理能力来提高分类的准确性和可靠性。此外,该方法还借鉴了计算机科学中的思维链和少样本学习提示,从而降低了对大量标注数据的需求。
关键设计:论文的关键设计包括:1) 使用思维链提示来引导LLM进行分类,从而提高LLM的推理能力;2) 采用少样本学习的方法,减少对大量标注数据的依赖;3) 设计了一种人机协作的流程,使得学者可以方便地审查和修正LLM的分类结果;4) 使用溯因推理来分析人机评分差异的原因,从而更好地理解LLM的分类行为。
🖼️ 关键图片
📊 实验亮点
该研究通过对1934篇医药联盟新闻稿的实验,验证了该方法在人机协作文本分类中的有效性。实验结果表明,该方法可以有效地提高文本分类的准确性和可靠性,并降低成本。此外,该研究还展示了如何利用该方法分析人机评分差异,从而更好地理解LLM的分类行为。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。
🎯 应用场景
该研究提出的互补学习方法可广泛应用于各种文本分类任务,例如新闻分类、情感分析、舆情监控等。该方法尤其适用于需要专业知识和领域理解的文本分类任务。通过人机协作,可以提高文本分类的准确性和可靠性,并降低成本。该方法还有助于提高LLM的透明度和可解释性,从而增强人们对LLM的信任。
📄 摘要(原文)
In this study, we propose a structured methodology that utilizes large language models (LLMs) in a cost-efficient and parsimonious manner, integrating the strengths of scholars and machines while offsetting their respective weaknesses. Our methodology, facilitated through a chain of thought and few-shot learning prompting from computer science, extends best practices for co-author teams in qualitative research to human-machine teams in quantitative research. This allows humans to utilize abductive reasoning and natural language to interrogate not just what the machine has done but also what the human has done. Our method highlights how scholars can manage inherent weaknesses OF LLMs using careful, low-cost techniques. We demonstrate how to use the methodology to interrogate human-machine rating discrepancies for a sample of 1,934 press releases announcing pharmaceutical alliances (1990-2017).