LLMs on Drugs: Language Models Are Few-Shot Consumers

作者: Alexander Doudkin

分类: cs.CL

发布日期: 2025-12-21

备注: 8 pages, 2 figures, 2 tables

🔗 代码/项目: GITHUB

💡 一句话要点

研究表明，LLM对推理时的人格设定敏感，提示词层面的“药物”干预会显著影响其性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示工程 鲁棒性 人格设定 常识推理

📋 核心要点

现有研究缺乏对LLM在受到特定人格或状态（如“药物”影响）下性能的系统性评估，这限制了我们对LLM鲁棒性的理解。
该研究通过在提示词中引入模拟不同精神状态的“药物”提示，来观察LLM在解决ARC-Challenge时的性能变化。
实验结果表明，即使是单句的“药物”提示也能显著降低LLM的准确率，揭示了LLM对提示词的脆弱性。

📝 摘要（中文）

大型语言模型（LLM）对推理时施加的人格设定非常敏感，但提示词层面的“药物”干预尚未经过严格的基准测试。本文对GPT-5-mini在ARC-Challenge上进行了首次受控的心理活性框架研究。在确定性解码、完整日志记录、Wilson置信区间和Fisher精确检验下，将四种单句提示词——LSD、可卡因、酒精和大麻——与清醒的对照组进行比较，每种条件测试100个验证项。对照组的准确率为0.45；酒精组崩溃至0.10（p = 3.2e-8），可卡因组降至0.21（p = 4.9e-4），LSD组降至0.19（p = 1.3e-4），大麻组降至0.30（p = 0.041），这主要是因为人格提示词破坏了强制的“Answer: ”模板。因此，人格文本的行为类似于“少量消耗品”，可以在不触及模型权重的情况下破坏可靠性。所有实验代码、原始结果和分析脚本均可在https://github.com/lexdoudkin/llms-on-drugs上找到。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）在受到不同“药物”人格提示影响下的性能变化。现有方法缺乏对LLM在受到特定prompt影响下的鲁棒性评估，使得我们难以理解LLM在实际应用中可能出现的不可预测行为。现有方法通常关注模型结构或训练数据的改进，而忽略了prompt设计对模型性能的潜在影响。

核心思路：论文的核心思路是通过在提示词中加入模拟不同精神状态（如吸食LSD、可卡因、饮酒和大麻）的单句描述，来观察LLM在解决常识推理任务（ARC-Challenge）时的性能变化。这种方法模拟了LLM在实际应用中可能遇到的各种prompt形式，从而评估LLM对prompt的敏感程度。

技术框架：该研究的技术框架主要包括以下几个步骤：1. 选择ARC-Challenge作为评估任务；2. 设计四种“药物”提示词（LSD、可卡因、酒精、大麻）和一个对照组（清醒状态）；3. 使用GPT-5-mini模型进行实验，并采用确定性解码以保证结果的可重复性；4. 对实验结果进行统计分析，包括计算准确率、Wilson置信区间和Fisher精确检验。

关键创新：该研究的关键创新在于首次系统性地研究了“药物”人格提示对LLM性能的影响。通过控制实验条件，论文证明了即使是简单的单句提示词也能显著改变LLM的行为，揭示了LLM对prompt的脆弱性。这种研究方法为评估LLM的鲁棒性和可靠性提供了一种新的思路。

关键设计：实验的关键设计包括：1. 使用单句提示词以控制变量，避免其他因素的干扰；2. 采用确定性解码以保证结果的可重复性；3. 使用ARC-Challenge作为评估任务，因为它需要常识推理能力，对LLM提出了挑战；4. 使用Wilson置信区间和Fisher精确检验进行统计分析，以评估结果的显著性。

📊 实验亮点

实验结果显示，与对照组（准确率0.45）相比，所有“药物”提示都显著降低了GPT-5-mini在ARC-Challenge上的准确率。其中，酒精提示导致准确率崩溃至0.10（p = 3.2e-8），可卡因提示降至0.21（p = 4.9e-4），LSD提示降至0.19（p = 1.3e-4），大麻提示降至0.30（p = 0.041）。这些结果表明，即使是简单的单句提示词也能显著影响LLM的性能。

🎯 应用场景

该研究成果可应用于评估和提高LLM在各种实际应用场景中的鲁棒性。例如，在开发聊天机器人或智能助手时，可以利用该方法测试模型在面对不同风格或意图的prompt时的表现，从而优化prompt设计，减少模型产生错误或有害输出的风险。此外，该研究也为开发更可靠、更安全的LLM提供了新的思路。

📄 摘要（原文）

Large language models (LLMs) are sensitive to the personas imposed on them at inference time, yet prompt-level "drug" interventions have never been benchmarked rigorously. We present the first controlled study of psychoactive framings on GPT-5-mini using ARC-Challenge. Four single-sentence prompts -- LSD, cocaine, alcohol, and cannabis -- are compared against a sober control across 100 validation items per condition, with deterministic decoding, full logging, Wilson confidence intervals, and Fisher exact tests. Control accuracy is 0.45; alcohol collapses to 0.10 (p = 3.2e-8), cocaine to 0.21 (p = 4.9e-4), LSD to 0.19 (p = 1.3e-4), and cannabis to 0.30 (p = 0.041), largely because persona prompts disrupt the mandated "Answer: " template. Persona text therefore behaves like a "few-shot consumable" that can destroy reliability without touching model weights. All experimental code, raw results, and analysis scripts are available at https://github.com/lexdoudkin/llms-on-drugs.

LLMs on Drugs: Language Models Are Few-Shot Consumers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理