Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
作者: Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-10 (更新: 2025-10-06)
💡 一句话要点
量化LLM文本标注的潜在风险:揭示LLM破解现象及其对社会科学研究的影响
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本标注 LLM破解 社会科学研究 偏差分析
📋 核心要点
- 现有方法依赖LLM进行文本标注,但模型选择和prompt策略的差异可能引入偏差,导致错误的结论。
- 论文提出“LLM破解”的概念,指配置选择导致错误结论的现象,并研究了有意和无意的LLM破解。
- 实验表明,即使是先进的LLM也存在LLM破解的风险,并分析了多种缓解技术,推荐人工标注作为保护措施。
📝 摘要(中文)
大型语言模型(LLM)正迅速改变社会科学研究,通过自动化数据标注和文本分析等劳动密集型任务。然而,LLM的输出结果因研究人员的实施选择(如模型选择或提示策略)而异。这种差异可能引入系统性偏差和随机误差,从而传播到下游分析,导致I型错误(假阳性)、II型错误(假阴性)、S型错误(错误符号)或M型错误(夸大效应)。我们将配置选择导致错误结论的现象称为LLM破解。我们发现,有意的LLM破解非常简单。通过复制21项已发表的社会科学研究中的37项数据标注任务,我们表明,只需少量的提示释义,几乎任何事情都可以呈现为具有统计学意义。除了有意的操纵之外,我们对来自18个不同LLM的1300万个标签在2361个现实假设中的分析表明,即使遵循标准研究实践,也存在意外LLM破解的高风险。我们发现,对于最先进的LLM,大约31%的假设存在不正确的结论,而对于较小的语言模型,则有一半的假设存在不正确的结论。虽然更高的任务性能和更强的通用模型能力降低了LLM破解风险,但即使是高度准确的模型仍然容易受到影响。LLM破解的风险随着效应量的增加而降低,表明需要对接近显著性阈值的基于LLM的发现进行更严格的验证。我们分析了21种缓解技术,发现人工标注提供了针对假阳性的关键保护。常见的回归估计器校正技术可以恢复有效的推断,但需要在I型错误和II型错误之间进行权衡。我们发布了一系列防止LLM破解的实用建议。
🔬 方法详解
问题定义:论文旨在解决使用大型语言模型(LLM)进行文本标注时,由于模型选择、prompt策略等配置选择不同,导致结果产生偏差,进而影响下游分析,最终导致错误的科学结论的问题。现有方法缺乏对这种偏差的系统性评估和有效缓解措施,使得研究结果的可靠性受到威胁。
核心思路:论文的核心思路是通过量化LLM在文本标注任务中的潜在风险,揭示“LLM破解”现象,即通过调整LLM的配置(如prompt),可以有意或无意地操纵结果,使其符合研究者的预期,从而导致错误的结论。论文通过大量的实验,分析了不同LLM、不同prompt策略下的标注结果,并评估了多种缓解技术的效果。
技术框架:论文的研究框架主要包括以下几个阶段:1) 选取已发表的社会科学研究中的数据标注任务作为基准;2) 使用不同的LLM和prompt策略对这些任务进行标注;3) 分析标注结果的差异,量化LLM破解的风险;4) 评估多种缓解技术(如人工标注、回归估计器校正)的效果;5) 提出防止LLM破解的实用建议。
关键创新:论文最重要的技术创新点在于提出了“LLM破解”这一概念,并系统性地研究了其对社会科学研究的影响。论文不仅揭示了有意LLM破解的可能性,还强调了即使遵循标准研究实践,也存在意外LLM破解的风险。此外,论文还对多种缓解技术进行了评估,为研究者提供了实用的指导。
关键设计:论文的关键设计包括:1) 选取具有代表性的社会科学研究作为基准,保证研究的实际意义;2) 使用多种LLM(包括不同规模和架构的模型)和prompt策略,以评估不同配置下的LLM破解风险;3) 设计合理的评估指标,量化LLM破解的风险,例如,统计不正确的结论的比例;4) 评估多种缓解技术的效果,并分析其优缺点,例如,人工标注的成本较高,但可以有效防止假阳性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是先进的LLM,在约31%的假设中也存在不正确的结论。通过少量的prompt释义,几乎任何事情都可以呈现为具有统计学意义。人工标注提供了针对假阳性的关键保护,而常见的回归估计器校正技术可以在I型错误和II型错误之间进行权衡。
🎯 应用场景
该研究成果可应用于社会科学、自然语言处理等领域,帮助研究人员更可靠地使用LLM进行文本标注和数据分析。通过避免LLM破解,可以提高研究结果的准确性和可信度,从而促进科学研究的健康发展。此外,该研究也为LLM的开发者提供了改进方向,使其在文本标注任务中更加可靠。
📄 摘要(原文)
Large language models are rapidly transforming social science research by enabling the automation of labor-intensive tasks like data annotation and text analysis. However, LLM outputs vary significantly depending on the implementation choices made by researchers (e.g., model selection or prompting strategy). Such variation can introduce systematic biases and random errors, which propagate to downstream analyses and cause Type I (false positive), Type II (false negative), Type S (wrong sign), or Type M (exaggerated effect) errors. We call this phenomenon where configuration choices lead to incorrect conclusions LLM hacking. We find that intentional LLM hacking is strikingly simple. By replicating 37 data annotation tasks from 21 published social science studies, we show that, with just a handful of prompt paraphrases, virtually anything can be presented as statistically significant. Beyond intentional manipulation, our analysis of 13 million labels from 18 different LLMs across 2361 realistic hypotheses shows that there is also a high risk of accidental LLM hacking, even when following standard research practices. We find incorrect conclusions in approximately 31% of hypotheses for state-of-the-art LLMs, and in half the hypotheses for smaller language models. While higher task performance and stronger general model capabilities reduce LLM hacking risk, even highly accurate models remain susceptible. The risk of LLM hacking decreases as effect sizes increase, indicating the need for more rigorous verification of LLM-based findings near significance thresholds. We analyze 21 mitigation techniques and find that human annotations provide crucial protection against false positives. Common regression estimator correction techniques can restore valid inference but trade off Type I vs. Type II errors. We publish a list of practical recommendations to prevent LLM hacking.