Tracing Persona Vectors Through LLM Pretraining
作者: Viktor Moskvoretskii, Dominik Glandorf, Jorge Medina Moreira, Tanja Käser, Robert West
分类: cs.CL, cs.AI
发布日期: 2026-05-13
备注: Preprint
💡 一句话要点
追踪LLM预训练中的Persona向量:揭示早期形成与持续优化机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 预训练 Persona向量 AI安全 可解释性 模型训练 内部表示 行为控制
📋 核心要点
- 大型语言模型内部行为表示是AI安全的关键,但现有方法缺乏对Persona向量训练形成过程的理解。
- 本文通过追踪LLM预训练过程中的Persona向量,揭示其早期形成和持续优化的机制。
- 实验表明Persona向量在预训练早期形成,并在后续训练中不断优化,且发现可迁移至其他模型。
📝 摘要(中文)
本文研究大型语言模型(LLM)如何在其内部表示高级行为,这是一个与AI安全直接相关的可解释性核心问题。研究表明,诸如邪恶或谄媚等特质对应于内部激活中的线性方向,即所谓的Persona向量。尽管这些向量已被广泛用于检查和引导安全相关设置中的模型行为,但它们在训练期间的形成方式仍然未知。为了填补这一空白,我们追踪了OLMo-3-7B预训练过程中的Persona向量,发现它们形成得非常早——在OLMo-3预训练的0.22%以内——并且对于完全后训练的指令模型仍然有效。尽管核心表示形成于早期,但Persona向量在整个预训练过程中继续在几何和语义上进行优化。我们进一步比较了替代的启发策略,发现所有策略都产生了有效的方向,每种策略都揭示了底层Persona的定性不同的方面。在Apertus-8B上复制我们的分析表明,我们的发现可以在OLMo-3之外进行定性转移。我们的结果将Persona表示确立为早期预训练的稳定特征,并为研究训练如何形成、改进和塑造它们开辟了一条道路。
🔬 方法详解
问题定义:现有方法缺乏对大型语言模型(LLM)中Persona向量在预训练期间如何形成和演化的理解。虽然Persona向量已被用于指导模型行为,但对其形成机制的认知不足限制了我们对模型内部表示的控制和优化,也阻碍了AI安全相关应用的发展。因此,需要深入研究Persona向量在预训练过程中的动态变化。
核心思路:本文的核心思路是通过追踪LLM预训练过程中的Persona向量,观察其在不同训练阶段的形成、演化和优化情况。通过分析Persona向量的几何和语义变化,揭示其内在机制,并探索不同启发策略对Persona向量的影响。这种方法旨在理解LLM如何学习和表示高级行为,为AI安全和模型控制提供新的视角。
技术框架:本文的技术框架主要包括以下几个阶段:1) 选择合适的LLM模型(OLMo-3-7B和Apertus-8B)进行预训练;2) 在预训练过程中,定期提取模型的内部激活,并使用不同的启发策略(如evil, sycophancy)计算Persona向量;3) 分析Persona向量在不同训练阶段的几何变化(如向量方向、幅度)和语义变化(如与特定概念的关联);4) 比较不同启发策略生成的Persona向量的差异;5) 将分析结果推广到其他LLM模型上进行验证。
关键创新:本文最重要的技术创新在于揭示了Persona向量在LLM预训练过程中早期形成和持续优化的现象。具体来说,研究发现Persona向量在预训练的极早期(0.22%)就已经形成,并且在后续训练中不断进行几何和语义上的优化。这一发现挑战了以往对LLM内部表示形成的认知,为理解LLM的学习机制提供了新的线索。
关键设计:本文的关键设计包括:1) 选择OLMo-3-7B和Apertus-8B作为研究对象,因为它们具有良好的可访问性和可控性;2) 使用多种启发策略(如evil, sycophancy)来生成Persona向量,以探索不同策略对Persona向量的影响;3) 采用几何和语义分析方法,全面评估Persona向量的变化;4) 通过在不同模型上进行验证,确保研究结果的可靠性和泛化性。
🖼️ 关键图片
📊 实验亮点
研究发现Persona向量在OLMo-3预训练的0.22%以内就已形成,且在整个预训练过程中持续优化。不同启发策略产生不同的Persona向量,揭示了底层Persona的不同方面。研究结果在Apertus-8B上得到验证,表明该发现具有一定的泛化性。
🎯 应用场景
该研究成果可应用于AI安全领域,例如通过早期检测和干预Persona向量的形成,从而预防模型产生有害行为。此外,该研究还可以用于提升模型的可控性和可解释性,为开发更安全、更可靠的LLM提供理论指导。未来,该研究或可用于设计更高效的预训练方法,加速LLM的学习过程。
📄 摘要(原文)
How large language models internally represent high-level behaviors is a core interpretability question with direct relevance to AI safety: it determines what we can detect, audit, or intervene on. Recent work has shown that traits such as evil or sycophancy correspond to linear directions in the internal activations, the so-called persona vectors. Although these vectors are now routinely utilized to inspect and steer model behavior in safety-relevant settings, how these representations are formed during training remains unknown. To address this gap, we trace persona vectors across the pretraining of OLMo-3-7B, finding that persona vectors form remarkably early -- within 0.22% of OLMo-3 pretraining -- and remain effective for steering the fully post-trained instruct models. Although core representations are formed early on, persona vectors continue to refine geometrically and semantically throughout pretraining. We further compare alternative elicitation strategies and find that all yield effective directions, with each strategy surfacing qualitatively distinct facets of the underlying persona. Replicating our analysis on Apertus-8B reveals that our findings transfer qualitatively beyond OLMo-3. Our results establish persona representations as stable features of early pretraining and open a path to studying how training forms, refines, and shapes them.