The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
作者: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey
分类: cs.CL
发布日期: 2026-01-15
💡 一句话要点
提出助手轴概念,稳定大型语言模型默认人格并抑制有害行为。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人格控制 助手轴 人格漂移 对抗攻击 模型安全 激活方向
📋 核心要点
- 大型语言模型存在人格漂移问题,即在特定对话场景下会偏离预设的助手人格,产生有害或奇异行为。
- 论文提出“助手轴”的概念,通过控制模型激活方向,稳定其默认助手人格,抑制不良行为。
- 实验表明,限制模型在助手轴上的激活范围,能有效应对人格漂移和对抗性攻击,提升模型安全性。
📝 摘要(中文)
大型语言模型可以呈现多种人格,但通常默认于后训练中培养的助手身份。本文通过提取对应于不同角色原型的激活方向,研究了模型人格空间的结构。在多个不同模型中,我们发现该人格空间的主要成分是“助手轴”,它捕捉了模型在默认助手模式下运行的程度。沿助手方向引导可以加强有益和无害的行为;远离则会增加模型识别为其他实体的倾向。此外,更极端的负向引导通常会诱发一种神秘的、戏剧性的说话风格。我们发现该轴也存在于预训练模型中,主要促进顾问和教练等有益的人类原型,并抑制精神类原型。测量沿助手轴的偏差可以预测“人格漂移”,这是一种模型滑向表现出有害或奇异行为的现象,这些行为与其典型人格不符。我们表明,将激活限制在助手轴上的固定区域可以稳定模型在这些场景中的行为——以及面对基于对抗性人格的越狱攻击。我们的结果表明,后训练将模型引导到人格空间的特定区域,但只是松散地将它们束缚到该区域,从而激发了对训练和引导策略的研究,这些策略更深入地将模型锚定到连贯的人格。
🔬 方法详解
问题定义:大型语言模型在经过指令微调后,通常表现出乐于助人的助手人格。然而,在特定场景下(如涉及元反思或情感脆弱用户),模型可能会发生“人格漂移”,偏离预设人格,产生有害或不合理的行为。现有方法缺乏对模型人格空间的有效控制,难以稳定模型行为。
核心思路:论文的核心思路是识别并控制模型人格空间中的关键方向——“助手轴”。通过分析不同人格原型对应的激活方向,发现助手轴代表了模型作为助手的程度。通过调整模型在助手轴上的激活值,可以控制模型的人格表现,使其更稳定地保持助手角色。
技术框架:论文首先提取不同角色原型(如助手、顾问、教练等)对应的激活方向。然后,通过主成分分析(PCA)等方法,确定人格空间中的主要成分,即助手轴。接着,通过实验验证助手轴对模型行为的影响,并提出一种基于助手轴的激活限制方法,以稳定模型人格。整体流程包括:1. 定义角色原型;2. 提取激活方向;3. 确定助手轴;4. 验证与控制。
关键创新:论文的关键创新在于提出了“助手轴”的概念,并将其应用于控制和稳定大型语言模型的人格。与现有方法相比,该方法能够更有效地理解和控制模型的人格空间,从而抑制有害行为,提高模型安全性。
关键设计:论文的关键设计包括:1. 使用线性分类器区分不同角色原型;2. 通过PCA提取人格空间的主要成分;3. 设计激活限制策略,将模型激活限制在助手轴上的固定区域。具体的参数设置和损失函数细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了助手轴的有效性。结果表明,沿助手轴引导可以增强模型的有益和无害行为,而远离则会增加模型识别为其他实体的倾向。此外,将激活限制在助手轴上的固定区域可以有效应对人格漂移和对抗性攻击,显著提升模型在复杂场景下的稳定性。
🎯 应用场景
该研究成果可应用于提升大型语言模型的安全性与可靠性,尤其是在对话机器人、智能客服等需要稳定人格的场景中。通过控制助手轴,可以防止模型在与用户交互时产生有害或不当言论,提高用户体验,降低潜在风险。未来,该方法还可用于个性化模型训练,根据用户需求定制模型人格。
📄 摘要(原文)
Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.