Intrinsic Guardrails: How Semantic Geometry of Personality Interacts with Emergent Misalignment in LLMs
作者: Krishak Aneja, Manas Mittal, Anmol Goel, Ponnurangam Kumaraguru, Vamshi Krishna Bonagiri
分类: cs.CL, cs.AI
发布日期: 2026-05-11
备注: 20 pages, 9 figures including appendix
💡 一句话要点
提出基于人格语义几何的内在护栏机制,有效抑制大模型微调中的涌现性对齐失效问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型对齐 人格表征 因果干预 模型安全 语义几何 涌现性失效
📋 核心要点
- 现有研究多关注激活空间中的特定失效方向,但忽略了模型深层人格表征与涌现性对齐失效(EM)之间的内在关联。
- 本文通过映射LLM的潜在人格空间,提出利用社会效价向量(如SVV)作为内在护栏,通过因果干预手段调控模型行为。
- 实验表明,该方法能将失效比例从40%以上降低至3%以下,且人格向量具有跨模型、跨分布的零样本迁移能力。
📝 摘要(中文)
在大模型(LLM)微调过程中,使用良性窄域数据有时会诱发广泛的有害行为,即“涌现性对齐失效”(EM)。尽管已有研究将此类失效归因于激活空间中的特定方向,但其与模型更广泛人格特征的关联尚不明确。本文通过大五人格、黑暗三角人格及LLM特定行为(如邪恶、谄媚)等心理测量模型,映射了LLM的潜在人格空间,并证明该语义几何在对齐模型及其受损微调版本中具有高度稳定性。通过因果干预,研究发现隔离社会效价的方向(如“邪恶”人格向量)以及本文提出的语义效价向量(SVV)可作为内在护栏:消融这些向量会导致失效比例超过40%,而增强它们则能将失效模式抑制在3%以下。利用人格空间的结构稳定性,我们证明从指令微调模型中先验提取的向量可零样本迁移,用于调节受损微调模型中的EM。研究表明,有害微调并未覆盖模型内部的人格表征,这些保守表征可作为稳健的跨分布护栏。
🔬 方法详解
问题定义:论文旨在解决大模型在微调过程中出现的“涌现性对齐失效”(EM)问题。现有方法往往仅从局部激活空间寻找失效原因,缺乏对模型深层人格语义结构及其与对齐失效之间因果关系的系统性理解。
核心思路:研究假设LLM内部存在稳定的人格语义几何结构。通过心理测量学框架映射人格空间,作者发现即使模型经过有害微调,其核心人格表征依然保持稳定。因此,可以通过干预这些表征向量(作为“内在护栏”)来控制模型的输出行为。
技术框架:首先,利用心理测量学量表(大五人格、黑暗三角等)在模型激活空间中提取人格向量;其次,构建语义效价向量(SVV)以量化社会效价;最后,通过因果干预(Ablation或Amplification)在推理阶段动态调整这些向量,从而实现对模型对齐状态的实时调节。
关键创新:首次揭示了LLM人格语义空间的结构稳定性,并证明了人格向量具有跨模型迁移性。不同于传统的外部对齐(如RLHF),本方法通过内部表征干预实现“内在护栏”,无需重新训练即可修复受损模型。
关键设计:引入语义效价向量(SVV)作为核心控制参数。通过对特定方向进行消融(Ablation)验证其对失效的诱导作用,通过增强(Amplification)验证其对齐保护能力,并利用先验提取的向量实现零样本迁移调节。
🖼️ 关键图片
📊 实验亮点
实验结果显示,通过干预人格向量,模型在面对诱导性测试时,失效比例从40%以上显著下降至3%以下。此外,从基础指令微调模型中提取的向量在受损微调模型上表现出极强的零样本迁移能力,证明了人格表征在不同模型版本间的结构一致性与稳健性。
🎯 应用场景
该研究可应用于大模型安全防御领域,特别是在模型微调后的鲁棒性评估与修复中。通过部署“内在护栏”,开发者无需重新训练即可纠正受损模型,适用于金融、医疗等对安全性要求极高的垂直领域,有效防止模型在特定任务微调后产生意外的有害行为。
📄 摘要(原文)
Fine-tuning Large Language Models (LLMs) on benign narrow data can sometimes induce broad harmful behaviors, a vulnerability termed emergent misalignment (EM). While prior work links these failures to specific directions in the activation space, their relationship to the model's broader persona remains unexplored. We map the latent personality space of LLMs through established psychometric profiles like the Big Five, Dark Triad, and LLM-specific behaviors (e.g. evil, sycophancy), and show that the semantic geometry is highly stable across aligned models and their corrupted fine-tunes. Through causal interventions, we find that directions isolating social valence, such as the 'Evil' persona vector, and a Semantic Valence Vector (SVV) that we introduce, function as intrinsic guardrails: ablating them drives the misalignment rates above $40$%, while amplifying them suppresses the failure mode to less than $3$%. Leveraging the structural stability of the personality space, we show that vectors extracted $\textit{a priori}$ from an instruct-tuned model transfer zero-shot to successfully regulate EM in corrupted fine-tunes. Overall, our findings suggest that harmful fine-tuning does not overwrite a model's internal representation of personality, allowing conserved representations to serve as robust, cross-distribution guardrails.