Trusting CHATGPT: how minor tweaks in the prompts lead to major differences in sentiment classification

📄 arXiv: 2504.12180v1 📥 PDF

作者: Jaime E. Cuellar, Oscar Moreno-Martinez, Paula Sofia Torres-Rodriguez, Jaime Andres Pavlich-Mariscal, Andres Felipe Mican-Castiblanco, Juan Guillermo Torres-Hurtado

分类: cs.CL, cs.AI

发布日期: 2025-04-16

备注: in Spanish language


💡 一句话要点

揭示ChatGPT在情感分类中对提示语微调的敏感性,挑战其可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感分类 提示工程 可靠性 稳健性

📋 核心要点

  1. 现有大型语言模型在情感分类任务中,其对提示语的依赖性和潜在的脆弱性是一个关键问题。
  2. 该研究通过微调提示语,观察ChatGPT在情感分类任务中的表现变化,以此评估其可靠性。
  3. 实验结果表明,即使是提示语的细微变化也会导致分类结果的显著差异,挑战了模型的稳健性。

📝 摘要(中文)

本研究旨在探究ChatGPT等复杂预测模型的可信度。研究假设提示语结构的细微变化不会显著影响大型语言模型GPT-4o mini生成的情感极性分析分类结果。使用包含拉丁美洲四位总统相关10万条西班牙语评论的数据集,该模型在10次分类中将评论分为积极、消极或中性,每次略微调整提示语。实验方法包括探索性和验证性分析,以识别分类之间的显著差异。结果表明,提示语的微小修改,如词汇、句法或情态变化,甚至缺乏结构,都会影响分类。在某些情况下,模型产生不一致的响应,例如混合类别、提供主动解释或使用西班牙语以外的语言。卡方检验的统计分析证实了提示语之间的大部分比较存在显著差异,但语言结构高度相似的情况除外。这些发现挑战了大型语言模型在分类任务中的稳健性和可信度,突显了它们对指令变化的脆弱性。此外,提示语中缺乏结构化语法会增加幻觉的频率。讨论强调,对大型语言模型的信任不仅基于技术性能,还基于支持其使用的社会和制度关系。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(特别是ChatGPT)在情感分类任务中的可靠性。现有方法,即直接使用LLM进行情感分类,存在一个痛点:它们对输入提示语的敏感性未知,这可能导致分类结果的不稳定和不可信。

核心思路:核心思路是通过系统性地微调输入ChatGPT的提示语,并观察这些微小变化对情感分类结果的影响。通过统计分析不同提示语下的分类结果,来评估ChatGPT对提示语变化的敏感程度,从而推断其可靠性。

技术框架:该研究的技术框架主要包括以下几个步骤:1. 数据集构建:收集包含拉丁美洲四位总统相关评论的西班牙语数据集(10万条)。2. 提示语设计:设计一系列略有不同的提示语,包括词汇、句法、情态等方面的变化。3. 模型分类:使用GPT-4o mini对数据集中的评论进行情感分类(积极、消极、中性),每个提示语重复10次。4. 统计分析:使用卡方检验等统计方法,分析不同提示语下的分类结果是否存在显著差异。

关键创新:该研究的关键创新在于其系统性地评估了大型语言模型在情感分类任务中对提示语变化的敏感性。以往的研究可能更多关注模型的整体性能,而忽略了提示语对结果的潜在影响。该研究通过控制提示语的变量,更精确地揭示了模型的脆弱性。

关键设计:提示语的设计是关键。研究人员通过在词汇、句法、情态等方面进行微小调整,例如改变词语的选择、调整语序、添加或删除情态词等,来构建不同的提示语。此外,研究还关注了提示语结构化程度的影响,比较了结构化和非结构化提示语下的分类结果。统计分析方面,使用了卡方检验来评估不同提示语下分类结果的显著性差异。

📊 实验亮点

实验结果表明,即使是提示语的微小修改,如词汇、句法或情态变化,都会显著影响ChatGPT的情感分类结果。卡方检验的统计分析证实,大多数提示语之间的比较存在显著差异。研究还发现,提示语中缺乏结构化语法会增加模型产生幻觉的频率。这些结果挑战了大型语言模型在分类任务中的稳健性和可信度。

🎯 应用场景

该研究结果对自然语言处理领域的应用具有重要意义,尤其是在情感分析、舆情监控等领域。了解大型语言模型对提示语的敏感性,有助于设计更鲁棒的提示语,提高分类结果的可靠性。此外,该研究也提醒人们在使用大型语言模型时,需要谨慎对待输入指令,避免因细微的指令变化而导致结果偏差。未来可应用于开发更可靠的情感分析系统,提升舆情监控的准确性。

📄 摘要(原文)

One fundamental question for the social sciences today is: how much can we trust highly complex predictive models like ChatGPT? This study tests the hypothesis that subtle changes in the structure of prompts do not produce significant variations in the classification results of sentiment polarity analysis generated by the Large Language Model GPT-4o mini. Using a dataset of 100.000 comments in Spanish on four Latin American presidents, the model classified the comments as positive, negative, or neutral on 10 occasions, varying the prompts slightly each time. The experimental methodology included exploratory and confirmatory analyses to identify significant discrepancies among classifications. The results reveal that even minor modifications to prompts such as lexical, syntactic, or modal changes, or even their lack of structure impact the classifications. In certain cases, the model produced inconsistent responses, such as mixing categories, providing unsolicited explanations, or using languages other than Spanish. Statistical analysis using Chi-square tests confirmed significant differences in most comparisons between prompts, except in one case where linguistic structures were highly similar. These findings challenge the robustness and trust of Large Language Models for classification tasks, highlighting their vulnerability to variations in instructions. Moreover, it was evident that the lack of structured grammar in prompts increases the frequency of hallucinations. The discussion underscores that trust in Large Language Models is based not only on technical performance but also on the social and institutional relationships underpinning their use.