Researchers waste 80% of LLM annotation costs by classifying one text at a time

📄 arXiv: 2604.03684 📥 PDF

作者: Christian Pipal, Eva-Maria Vogel, Morgan Wack, Frank Esser

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

通过批量处理和变量堆叠,显著降低LLM文本分类标注成本,同时保持精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本分类 标注成本 批量处理 变量堆叠 API调用 精度评估

📋 核心要点

  1. 现有LLM文本分类标注方法效率低下,每次仅处理单个文本,导致API调用次数过多,成本高昂。
  2. 论文提出批量处理多个文本,并将多个变量堆叠到单个提示中,以减少API调用次数,降低标注成本。
  3. 实验表明,在一定范围内,批量处理和变量堆叠不会显著降低LLM的分类精度,可有效降低标注成本。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于社会科学领域的文本分类,但研究人员通常每次提示仅对每个变量分类一个文本,导致成本高昂。例如,对10万个文本进行四个变量的编码需要40万次API调用。通过批量处理25个项目并将所有变量堆叠到单个提示中,可以将调用次数减少到4000次,从而降低超过80%的token成本。然而,这种方法是否会降低编码质量是未知的。本文在四个任务中,使用来自四个提供商的八个生产级LLM,对3962条专家编码的推文进行了测试,批量大小从1到1000个项目不等,每个提示堆叠最多25个编码维度。结果表明,八个模型中有六个在批量大小为100时,精度保持在单项基线的2个百分点以内。最多10个维度的变量堆叠产生的结果与单变量编码相当,性能下降是由任务复杂性而非提示长度驱动的。在这个安全的操作范围内,批量处理和堆叠带来的测量误差小于ground-truth数据中典型的编码员间不一致性。

🔬 方法详解

问题定义:现有研究在使用LLM进行文本分类标注时,通常采用一次一个文本的方式,针对每个变量进行单独的API调用。这种方法在处理大规模数据集时,会导致API调用次数过多,token消耗巨大,从而显著增加标注成本。现有方法的痛点在于效率低下,成本过高,难以应用于大规模的文本分类任务。

核心思路:论文的核心思路是通过批量处理和变量堆叠来减少API调用次数,从而降低标注成本。批量处理指的是将多个文本组合成一个批次,一次性输入LLM进行分类。变量堆叠指的是将多个变量的分类任务合并到一个提示中,让LLM一次性输出多个变量的分类结果。这样可以显著减少API调用次数,降低token消耗。

技术框架:论文采用实验研究的方法,评估了不同批量大小和变量堆叠数量对LLM分类精度的影响。整体流程如下: 1. 选择四个文本分类任务和相应的专家标注数据集。 2. 选择八个生产级LLM进行测试。 3. 设计不同的批量大小(1到1000)和变量堆叠数量(最多25个)。 4. 使用不同的LLM对数据集进行分类,并计算分类精度。 5. 分析实验结果,评估批量处理和变量堆叠对分类精度的影响。

关键创新:论文的关键创新在于提出了批量处理和变量堆叠的策略,并验证了其在降低LLM文本分类标注成本方面的有效性。与现有方法相比,该方法可以在不显著降低分类精度的情况下,显著减少API调用次数,降低标注成本。此外,论文还分析了任务复杂性和提示长度对分类精度的影响,为实际应用提供了指导。

关键设计:论文的关键设计包括: 1. 批量大小的选择:实验测试了不同的批量大小,以确定在保持分类精度的情况下,可以使用的最大批量大小。 2. 变量堆叠数量的选择:实验测试了不同的变量堆叠数量,以确定在保持分类精度的情况下,可以堆叠的最大变量数量。 3. 提示的设计:论文设计了清晰简洁的提示,以确保LLM能够准确理解分类任务的要求。 4. 评估指标的选择:论文使用分类精度作为评估指标,以衡量批量处理和变量堆叠对分类精度的影响。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,八个模型中有六个在批量大小为100时,精度保持在单项基线的2个百分点以内。最多10个维度的变量堆叠产生的结果与单变量编码相当。这意味着在一定范围内,批量处理和变量堆叠不会显著降低LLM的分类精度,可以有效降低标注成本。

🎯 应用场景

该研究成果可广泛应用于社会科学、市场营销、舆情分析等领域的大规模文本分类任务。通过批量处理和变量堆叠,研究人员和企业可以显著降低LLM标注成本,提高标注效率,从而更好地利用LLM进行文本分析和决策。

📄 摘要(原文)

Large language models (LLMs) are increasingly being used for text classification across the social sciences, yet researchers overwhelmingly classify one text per variable per prompt. Coding 100,000 texts on four variables requires 400,000 API calls. Batching 25 items and stacking all variables into a single prompt reduces this to 4,000 calls, cutting token costs by over 80%. Whether this degrades coding quality is unknown. We tested eight production LLMs from four providers on 3,962 expert-coded tweets across four tasks, varying batch size from 1 to 1,000 items and stacking up to 25 coding dimensions per prompt. Six of eight models maintained accuracy within 2 pp of the single-item baseline through batch sizes of 100. Variable stacking with up to 10 dimensions produced results comparable to single-variable coding, with degradation driven by task complexity rather than prompt length. Within this safe operating range, the measurement error from batching and stacking is smaller than typical inter-coder disagreement in the ground-truth data.