Persona Jailbreaking in Large Language Models

📄 arXiv: 2601.16466v1 📥 PDF

作者: Jivnesh Sandhan, Fei Cheng, Tushar Sandhan, Yugo Murawaki

分类: cs.CL

发布日期: 2026-01-23

备注: Accepted at EACL26 (Findings)

🔗 代码/项目: GITHUB


💡 一句话要点

提出PHISH框架,揭示并利用LLM中人格易受对话历史操纵的漏洞

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格操纵 黑盒攻击 对抗性攻击 对话历史 安全性 LLM安全

📋 核心要点

  1. 现有研究忽略了对抗性对话历史对LLM人格的影响,缺乏对黑盒人格操纵的探索,这在实际应用中构成潜在风险。
  2. 论文提出PHISH框架,通过在用户查询中嵌入语义线索,逐步诱导LLM产生逆向人格,实现黑盒人格编辑。
  3. 实验表明,PHISH能有效操纵LLM人格,且对推理性能影响较小,但现有防护措施难以有效防御持续攻击。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于教育、心理健康和客户支持等领域,在这些领域中,稳定和一致的人格对于可靠性至关重要。然而,现有的研究主要集中在叙述或角色扮演任务上,而忽略了对抗性对话历史本身如何重塑诱导人格。黑盒人格操纵仍未被探索,这引发了对实际交互中鲁棒性的担忧。为此,我们引入了人格编辑任务,该任务在黑盒、仅推理设置下,通过用户侧输入对抗性地引导LLM的特征。为此,我们提出了PHISH(通过历史中的隐式引导进行人格劫持),这是第一个框架,它揭示了LLM安全性的一个新漏洞,该漏洞将语义加载的线索嵌入到用户查询中,以逐步诱导逆向人格。我们还定义了一个指标来量化攻击的成功率。在3个基准测试和8个LLM中,PHISH可预测地改变人格,触发相关特征的附带变化,并在多轮设置中表现出更强的效果。在高风险领域,如心理健康、辅导和客户支持,PHISH可靠地操纵人格,并通过人工和LLM-as-Judge评估进行验证。重要的是,PHISH仅导致推理基准性能略有下降,在很大程度上保持了整体效用,同时仍然能够实现显著的人格操纵。虽然当前的防护措施提供了一定的保护,但它们在持续攻击下仍然很脆弱。我们的研究结果揭示了人格方面的新漏洞,并强调了LLM中上下文弹性人格的必要性。我们的代码库和数据集可在https://github.com/Jivnesh/PHISH 获得。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在对话过程中人格易受操纵的问题。现有方法主要关注叙事或角色扮演任务,忽略了对抗性对话历史对LLM人格的影响。这种忽略导致LLM在实际交互中,特别是在高风险领域(如心理健康、教育等)的可靠性受到威胁。现有的防护措施也无法有效防御这种基于对话历史的人格操纵攻击。

核心思路:论文的核心思路是通过在用户查询中嵌入语义线索,隐式地引导LLM的人格向目标方向转变。这种方法模拟了真实世界中人们通过对话逐渐改变他人观念的过程。通过精心设计的对话历史,可以逐步诱导LLM产生与初始设定相反的人格特征。这种方法无需访问LLM的内部参数,属于黑盒攻击,更贴近实际应用场景。

技术框架:PHISH框架主要包含以下几个阶段:1) 目标人格定义:确定要诱导LLM产生的目标人格特征。2) 语义线索生成:根据目标人格特征,生成包含语义线索的用户查询。这些线索旨在逐步影响LLM对自身人格的认知。3) 对话历史构建:将生成的查询与LLM的回复组合成对话历史。4) 人格评估:使用人工评估或LLM-as-Judge方法评估LLM当前的人格特征是否符合目标人格。5) 迭代优化:根据评估结果,调整语义线索和对话历史,重复步骤2-4,直到LLM的人格特征达到预期目标。

关键创新:论文最重要的技术创新点在于提出了PHISH框架,实现了对LLM人格的黑盒操纵。与现有方法相比,PHISH不需要访问LLM的内部参数,而是通过精心设计的对话历史来影响LLM的人格。此外,论文还定义了一种量化攻击成功率的指标,为评估人格操纵效果提供了客观依据。

关键设计:PHISH框架的关键设计包括:1) 语义线索的选择:选择与目标人格特征相关的语义线索至关重要。这些线索需要能够逐步影响LLM对自身人格的认知。2) 对话历史的构建:对话历史的长度和内容对人格操纵的效果有很大影响。需要仔细设计对话历史,以确保语义线索能够有效地传递给LLM。3) 人格评估方法:选择合适的人格评估方法是评估攻击成功率的关键。论文使用了人工评估和LLM-as-Judge两种方法,以确保评估结果的可靠性。

📊 实验亮点

实验结果表明,PHISH框架能够有效地操纵LLM的人格,并在多个基准测试和LLM模型上取得了显著的效果。在心理健康、辅导和客户支持等高风险领域,PHISH能够可靠地操纵LLM的人格,并通过人工和LLM-as-Judge评估进行了验证。同时,PHISH对LLM的推理性能影响较小,在很大程度上保持了整体效用。

🎯 应用场景

该研究成果可应用于评估和提升LLM在教育、心理健康、客户支持等领域的安全性。通过PHISH框架,可以测试LLM在面对恶意对话时的鲁棒性,并开发更有效的防御机制,防止LLM人格被恶意操纵,确保其在敏感应用中的可靠性和安全性。未来的研究可以探索更复杂的攻击策略和更有效的防御方法。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed in domains such as education, mental health and customer support, where stable and consistent personas are critical for reliability. Yet, existing studies focus on narrative or role-playing tasks and overlook how adversarial conversational history alone can reshape induced personas. Black-box persona manipulation remains unexplored, raising concerns for robustness in realistic interactions. In response, we introduce the task of persona editing, which adversarially steers LLM traits through user-side inputs under a black-box, inference-only setting. To this end, we propose PHISH (Persona Hijacking via Implicit Steering in History), the first framework to expose a new vulnerability in LLM safety that embeds semantically loaded cues into user queries to gradually induce reverse personas. We also define a metric to quantify attack success. Across 3 benchmarks and 8 LLMs, PHISH predictably shifts personas, triggers collateral changes in correlated traits, and exhibits stronger effects in multi-turn settings. In high-risk domains mental health, tutoring, and customer support, PHISH reliably manipulates personas, validated by both human and LLM-as-Judge evaluations. Importantly, PHISH causes only a small reduction in reasoning benchmark performance, leaving overall utility largely intact while still enabling significant persona manipulation. While current guardrails offer partial protection, they remain brittle under sustained attack. Our findings expose new vulnerabilities in personas and highlight the need for context-resilient persona in LLMs. Our codebase and dataset is available at: https://github.com/Jivnesh/PHISH