LLMs on Drugs: Language Models Are Few-Shot Consumers

📄 arXiv: 2512.18546v1 📥 PDF

作者: Alexander Doudkin

分类: cs.CL

发布日期: 2025-12-21

备注: 8 pages, 2 figures, 2 tables

🔗 代码/项目: GITHUB


💡 一句话要点

研究表明,LLM对推理时的人格设定敏感,提示词层面的“药物”干预会显著影响其性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示工程 鲁棒性 人格设定 常识推理

📋 核心要点

  1. 现有研究缺乏对LLM在受到特定人格或状态(如“药物”影响)下性能的系统性评估,这限制了我们对LLM鲁棒性的理解。
  2. 该研究通过在提示词中引入模拟不同精神状态的“药物”提示,来观察LLM在解决ARC-Challenge时的性能变化。
  3. 实验结果表明,即使是单句的“药物”提示也能显著降低LLM的准确率,揭示了LLM对提示词的脆弱性。

📝 摘要(中文)

大型语言模型(LLM)对推理时施加的人格设定非常敏感,但提示词层面的“药物”干预尚未经过严格的基准测试。本文对GPT-5-mini在ARC-Challenge上进行了首次受控的心理活性框架研究。在确定性解码、完整日志记录、Wilson置信区间和Fisher精确检验下,将四种单句提示词——LSD、可卡因、酒精和大麻——与清醒的对照组进行比较,每种条件测试100个验证项。对照组的准确率为0.45;酒精组崩溃至0.10(p = 3.2e-8),可卡因组降至0.21(p = 4.9e-4),LSD组降至0.19(p = 1.3e-4),大麻组降至0.30(p = 0.041),这主要是因为人格提示词破坏了强制的“Answer: ”模板。因此,人格文本的行为类似于“少量消耗品”,可以在不触及模型权重的情况下破坏可靠性。所有实验代码、原始结果和分析脚本均可在https://github.com/lexdoudkin/llms-on-drugs上找到。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在受到不同“药物”人格提示影响下的性能变化。现有方法缺乏对LLM在受到特定prompt影响下的鲁棒性评估,使得我们难以理解LLM在实际应用中可能出现的不可预测行为。现有方法通常关注模型结构或训练数据的改进,而忽略了prompt设计对模型性能的潜在影响。

核心思路:论文的核心思路是通过在提示词中加入模拟不同精神状态(如吸食LSD、可卡因、饮酒和大麻)的单句描述,来观察LLM在解决常识推理任务(ARC-Challenge)时的性能变化。这种方法模拟了LLM在实际应用中可能遇到的各种prompt形式,从而评估LLM对prompt的敏感程度。

技术框架:该研究的技术框架主要包括以下几个步骤:1. 选择ARC-Challenge作为评估任务;2. 设计四种“药物”提示词(LSD、可卡因、酒精、大麻)和一个对照组(清醒状态);3. 使用GPT-5-mini模型进行实验,并采用确定性解码以保证结果的可重复性;4. 对实验结果进行统计分析,包括计算准确率、Wilson置信区间和Fisher精确检验。

关键创新:该研究的关键创新在于首次系统性地研究了“药物”人格提示对LLM性能的影响。通过控制实验条件,论文证明了即使是简单的单句提示词也能显著改变LLM的行为,揭示了LLM对prompt的脆弱性。这种研究方法为评估LLM的鲁棒性和可靠性提供了一种新的思路。

关键设计:实验的关键设计包括:1. 使用单句提示词以控制变量,避免其他因素的干扰;2. 采用确定性解码以保证结果的可重复性;3. 使用ARC-Challenge作为评估任务,因为它需要常识推理能力,对LLM提出了挑战;4. 使用Wilson置信区间和Fisher精确检验进行统计分析,以评估结果的显著性。

📊 实验亮点

实验结果显示,与对照组(准确率0.45)相比,所有“药物”提示都显著降低了GPT-5-mini在ARC-Challenge上的准确率。其中,酒精提示导致准确率崩溃至0.10(p = 3.2e-8),可卡因提示降至0.21(p = 4.9e-4),LSD提示降至0.19(p = 1.3e-4),大麻提示降至0.30(p = 0.041)。这些结果表明,即使是简单的单句提示词也能显著影响LLM的性能。

🎯 应用场景

该研究成果可应用于评估和提高LLM在各种实际应用场景中的鲁棒性。例如,在开发聊天机器人或智能助手时,可以利用该方法测试模型在面对不同风格或意图的prompt时的表现,从而优化prompt设计,减少模型产生错误或有害输出的风险。此外,该研究也为开发更可靠、更安全的LLM提供了新的思路。

📄 摘要(原文)

Large language models (LLMs) are sensitive to the personas imposed on them at inference time, yet prompt-level "drug" interventions have never been benchmarked rigorously. We present the first controlled study of psychoactive framings on GPT-5-mini using ARC-Challenge. Four single-sentence prompts -- LSD, cocaine, alcohol, and cannabis -- are compared against a sober control across 100 validation items per condition, with deterministic decoding, full logging, Wilson confidence intervals, and Fisher exact tests. Control accuracy is 0.45; alcohol collapses to 0.10 (p = 3.2e-8), cocaine to 0.21 (p = 4.9e-4), LSD to 0.19 (p = 1.3e-4), and cannabis to 0.30 (p = 0.041), largely because persona prompts disrupt the mandated "Answer: " template. Persona text therefore behaves like a "few-shot consumable" that can destroy reliability without touching model weights. All experimental code, raw results, and analysis scripts are available at https://github.com/lexdoudkin/llms-on-drugs.