Probing Persona-Dependent Preferences in Language Models
作者: Oscar Gilg, Pierre Beckmann, Daniel Paleka, Patrick Butlin
分类: cs.CL, cs.AI
发布日期: 2026-05-13
备注: 41 pages, 45 figures. Code: https://github.com/oscar-gilg/Preferences. Earlier write-up on LessWrong: https://www.lesswrong.com/posts/pxC2RAeoBrvK8ivMf/models-have-linear-representations-of-what-tasks-they-like-1
💡 一句话要点
通过线性探针揭示语言模型中人格依赖的偏好机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 偏好学习 线性探针 人格建模 因果干预
📋 核心要点
- 大型语言模型展现出偏好,但不同人格的偏好差异如何实现,内部机制是共享还是独立,尚不明确。
- 论文通过训练线性探针,从模型残差流中提取偏好向量,以此追踪模型在不同情境下的偏好变化。
- 实验表明,偏好向量在不同人格之间具有共享性,一个角色训练的探针可以预测和引导其他角色的选择。
📝 摘要(中文)
大型语言模型(LLMs)可以被认为具有偏好:它们可靠地选择某些任务和输出,并且通过后训练和系统提示塑造的偏好似乎影响了它们的大部分行为。但是,模型也可以采用具有截然不同偏好的不同角色。这是如何在内部实现的?每个人格都在其自身的偏好机制上运行,还是底层共享某些东西?我们训练Gemma-3-27B和Qwen-3.5-122B的残差流激活上的线性探针,以预测揭示的成对任务选择,并识别出一个真正的偏好向量:它跟踪模型在各种提示和情况下的偏好变化,并且在Gemma-3-27B上,沿着它进行引导可以因果控制成对选择。这种偏好表示在很大程度上是跨角色共享的:在有用的助手上训练的探针可以预测和引导具有质的不同的人格的选择,包括一个邪恶的人格,其偏好与助手的偏好负相关。
🔬 方法详解
问题定义:论文旨在探究大型语言模型(LLMs)在不同人格设定下,其偏好是如何表示和实现的。现有的研究缺乏对模型内部偏好机制的深入理解,特别是不同人格之间偏好差异的底层联系。理解这些机制有助于更好地控制和引导LLMs的行为。
核心思路:论文的核心思路是通过训练线性探针,从LLMs的残差流激活中提取偏好向量。该向量能够反映模型在不同情境下的偏好选择。通过分析该向量在不同人格之间的关系,可以揭示偏好机制的共享性和独立性。
技术框架:整体框架包括以下几个主要步骤:1) 选择LLMs(Gemma-3-27B和Qwen-3.5-122B);2) 构建包含不同任务和提示的数据集,模拟不同的人格设定;3) 提取模型在处理这些数据时的残差流激活;4) 训练线性探针,将残差流激活映射到成对任务选择的概率;5) 分析探针提取的偏好向量在不同人格之间的相关性,并进行因果干预实验。
关键创新:最重要的技术创新点在于,通过线性探针成功地从LLMs的残差流中提取了可解释的偏好向量。该向量不仅能够预测模型的选择,还能通过因果干预来控制模型的行为。此外,论文还发现,这种偏好表示在不同人格之间具有高度的共享性,这表明LLMs可能存在一个通用的偏好机制。
关键设计:关键设计包括:1) 使用线性探针,保证了模型的可解释性;2) 构建了包含多种任务和提示的数据集,以覆盖不同的人格设定;3) 通过成对任务选择的方式,更准确地反映模型的偏好;4) 进行了因果干预实验,验证了偏好向量的有效性。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过线性探针提取的偏好向量能够有效地预测和控制Gemma-3-27B模型的行为。更重要的是,该偏好表示在不同人格之间具有高度的共享性,即使是与助手人格偏好负相关的邪恶人格,也能被助手人格训练的探针所预测和引导。具体的性能数据和提升幅度未在摘要中详细说明,属于未知信息。
🎯 应用场景
该研究成果可应用于提升语言模型的可控性和安全性。通过理解和操纵模型的偏好,可以避免模型产生有害或不符合要求的输出。此外,该研究也有助于开发更具个性化和适应性的AI助手,使其能够更好地满足用户的需求。
📄 摘要(原文)
Large language models (LLMs) can be said to have preferences: they reliably pick certain tasks and outputs over others, and preferences shaped by post-training and system prompts appear to shape much of their behaviour. But models can also adopt different personas which have radically different preferences. How is this implemented internally? Does each persona run on its own preference machinery, or is something shared underneath? We train linear probes on residual-stream activations of Gemma-3-27B and Qwen-3.5-122B to predict revealed pairwise task choices, and identify a genuine preference vector: it tracks the model's preferences as they shift across a range of prompts and situations, and on Gemma-3-27B steering along it causally controls pairwise choice. This preference representation is largely shared across personas: a probe trained on the helpful assistant predicts and steers the choices of qualitatively different personas, including an evil persona whose preferences anti-correlate with those of the Assistant.