Are Humans as Brittle as Large Language Models?
作者: Jiahui Li, Sean Papay, Roman Klinger
分类: cs.CL, cs.HC
发布日期: 2025-09-09 (更新: 2025-11-07)
💡 一句话要点
对比人类与大语言模型,揭示提示词修改对文本分类任务的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 提示词工程 大语言模型 人类标注 文本分类 鲁棒性 人机协作 提示词脆弱性
📋 核心要点
- 大型语言模型对提示词的微小变化非常敏感,导致输出不稳定,但人类是否也存在类似问题尚不明确。
- 该研究通过对比人类标注者和LLM在文本分类任务中对提示词变化的反应,探究人类是否也具有提示词脆弱性。
- 实验表明,人类和LLM都对特定类型的提示词修改敏感,但人类对印刷错误和标签顺序颠倒的鲁棒性更强。
📝 摘要(中文)
大型语言模型(LLM)的输出不稳定,这既是由于解码过程的非确定性,也是由于提示词的脆弱性。虽然LLM生成过程中的内在非确定性可能通过输出中的分布变化来模仿人类标注中已存在的的不确定性,但人们普遍认为,提示词脆弱性效应是LLM独有的,但这一点尚未得到探索。这就引出了一个问题:人类标注者是否也表现出对提示词变化的类似敏感性?如果是这样,LLM中的提示词脆弱性是否应该被认为是存在问题的?或者,另一种假设是,提示词脆弱性是否正确地反映了人类标注的差异?为了填补这一研究空白,我们系统地比较了提示词修改对LLM的影响,以及相同的指令修改对人类标注者的影响,重点关注人类是否对提示词扰动表现出类似的敏感性。为了研究这一点,我们针对一系列文本分类任务,在提示词变化的情况下,同时提示人类和LLM。我们的研究结果表明,人类和LLM都对特定类型的提示词修改表现出更高的脆弱性,特别是那些涉及替代标签集或标签格式的修改。然而,与LLM相比,人类判断的分布受印刷错误和标签顺序颠倒的影响较小。
🔬 方法详解
问题定义:论文旨在研究人类标注者是否像大型语言模型一样,对提示词的微小变化表现出敏感性,即“提示词脆弱性”。现有研究主要关注LLM的提示词工程,而忽略了人类标注过程中的类似现象。理解人类标注的稳定性对于评估LLM的可靠性至关重要。
核心思路:核心思路是通过对比实验,系统性地评估人类标注者和LLM在面对不同类型的提示词修改时的表现。如果人类也表现出类似的脆弱性,那么LLM的提示词敏感性可能反映了人类固有的标注差异,而非LLM的缺陷。
技术框架:研究采用文本分类任务作为实验平台。首先,设计一系列提示词修改策略,包括标签集替换、标签格式修改、印刷错误和标签顺序颠倒。然后,分别使用这些修改后的提示词来引导人类标注者和LLM完成文本分类任务。最后,对比分析人类和LLM在不同提示词下的输出分布,评估其对提示词变化的敏感程度。
关键创新:该研究首次系统性地将人类标注者和LLM的提示词脆弱性进行对比分析。通过实验数据,揭示了人类在某些情况下也表现出对提示词的敏感性,但对某些类型的扰动(如印刷错误)具有更强的鲁棒性。
关键设计:关键设计在于提示词修改策略的多样性,涵盖了标签内容、格式和表达方式等多个维度。此外,实验还控制了人类标注者的背景和经验,以减少个体差异对结果的影响。对于LLM,则采用了标准的prompting方法,并记录了不同提示词下的输出分布。
📊 实验亮点
实验结果表明,人类和LLM都对标签集替换和标签格式修改等提示词变化表现出脆弱性。然而,人类对印刷错误和标签顺序颠倒的鲁棒性明显高于LLM。这表明,LLM的提示词敏感性在某些方面可能超过了人类,需要进一步研究和改进。
🎯 应用场景
该研究成果可应用于提升人机协作系统的鲁棒性,例如在众包标注平台中,可以根据人类的脆弱性特点,设计更友好的提示词和标注界面。此外,该研究也有助于更好地理解LLM的局限性,并开发更可靠的自然语言处理系统。未来,可以进一步探索如何利用人类的鲁棒性来提升LLM的性能。
📄 摘要(原文)
The output of large language models (LLMs) is unstable, due both to non-determinism of the decoding process as well as to prompt brittleness. While the intrinsic non-determinism of LLM generation may mimic existing uncertainty in human annotations through distributional shifts in outputs, it is largely assumed, yet unexplored, that the prompt brittleness effect is unique to LLMs. This raises the question: do human annotators show similar sensitivity to prompt changes? If so, should prompt brittleness in LLMs be considered problematic? One may alternatively hypothesize that prompt brittleness correctly reflects human annotation variances. To fill this research gap, we systematically compare the effects of prompt modifications on LLMs and identical instruction modifications for human annotators, focusing on the question of whether humans are similarly sensitive to prompt perturbations. To study this, we prompt both humans and LLMs for a set of text classification tasks conditioned on prompt variations. Our findings indicate that both humans and LLMs exhibit increased brittleness in response to specific types of prompt modifications, particularly those involving the substitution of alternative label sets or label formats. However, the distribution of human judgments is less affected by typographical errors and reversed label order than that of LLMs.