Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs?

📄 arXiv: 2604.11802v1 📥 PDF

作者: Yuto Harada, Hiro Taiyo Hamada

分类: cs.CL

发布日期: 2026-04-13


💡 一句话要点

通过心理概念神经元干预,研究LLM中人格特质表征与行为输出的关联性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格特质 大五人格模型 神经元探查 因果干预 表征学习 行为控制

📋 核心要点

  1. 大型语言模型能够模仿特定人格特征,但其内部如何表征人格以及如何影响行为输出尚不明确。
  2. 论文通过探查模型内部神经元对大五人格概念的响应,并干预这些神经元,研究人格表征与行为输出的因果关系。
  3. 实验发现,干预概念选择性神经元可以有效改变模型内部人格表征,但对生成行为的影响较弱,存在控制差距。

📝 摘要(中文)

本文研究大型语言模型(LLM)中人格特质(基于大五人格模型)的内部表征及其与行为输出的关系。通过探查(probing)技术,分析大五人格信息在模型不同深度层的涌现位置。然后,识别对特定人格概念选择性响应的神经元,并通过增强或抑制这些神经元的激活来干预模型的潜在表征和标签生成,观察是否能使模型偏向目标方向。实验结果表明,大五人格信息在早期层快速变得可解码,并在最终层保持可检测性;概念选择性神经元主要存在于中间层,且在不同领域之间的重叠有限。对这些神经元的干预能够一致地将探针读数推向目标概念,但对标签生成的影响较弱,且更依赖于概念,并伴有跨特质溢出。研究揭示了LLM中表征控制和行为控制之间的差距。

🔬 方法详解

问题定义:论文旨在探究大型语言模型(LLM)如何在其内部表征人格特质(基于大五人格模型),以及这些内部表征如何影响模型的行为输出,即生成文本的风格和内容。现有方法缺乏对LLM内部人格表征的精细理解,以及对这些表征与行为输出之间因果关系的深入研究。

核心思路:论文的核心思路是通过识别对特定人格概念(如大五人格中的外向性、宜人性等)选择性响应的神经元,然后通过干预(增强或抑制)这些神经元的激活,观察模型内部表征和生成文本的变化。这种方法旨在建立人格表征与行为输出之间的因果联系。

技术框架:整体框架包含以下几个主要阶段:1) 使用问卷调查数据对LLM进行微调,使其能够模拟不同人格特质;2) 使用探查(probing)技术,分析大五人格信息在模型不同深度层的涌现位置,确定信息最集中的层;3) 识别对特定人格概念选择性响应的神经元;4) 通过增强或抑制这些神经元的激活,干预模型的潜在表征和标签生成;5) 分析干预对探针读数和生成文本的影响,评估人格表征与行为输出之间的关系。

关键创新:论文的关键创新在于:1) 将心理学中的人格概念与神经科学中的神经元激活联系起来,探索LLM中人格特质的神经表征;2) 通过干预特定神经元的激活,研究人格表征与行为输出之间的因果关系,而不仅仅是相关性;3) 揭示了LLM中表征控制和行为控制之间的差距,即对内部表征的有效控制并不一定能转化为对生成行为的有效控制。

关键设计:论文的关键设计包括:1) 使用问卷调查数据来定义和量化人格特质;2) 使用探查技术来识别对特定人格概念选择性响应的神经元;3) 设计了增强和抑制神经元激活的干预方法;4) 使用探针读数和生成文本的统计分析来评估干预效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大五人格信息在LLM的早期层快速变得可解码,并在最终层保持可检测性。对概念选择性神经元的干预能够一致地将探针读数推向目标概念,成功率超过0.8。然而,对标签生成的影响较弱,且存在跨特质溢出,表明对内部表征的有效控制并不一定能转化为对生成行为的有效控制。

🎯 应用场景

该研究成果可应用于提升LLM在对话系统、内容生成等领域的个性化能力,例如,根据用户的人格特质定制对话风格或生成更符合用户偏好的内容。此外,该研究有助于理解LLM的内部工作机制,为开发更可控、更安全的人工智能系统提供理论基础。

📄 摘要(原文)

Using psychological constructs such as the Big Five, large language models (LLMs) can imitate specific personality profiles and predict a user's personality. While LLMs can exhibit behaviors consistent with these constructs, it remains unclear where and how they are represented inside the model and how they relate to behavioral outputs. To address this gap, we focus on questionnaire-operationalized Big Five concepts, analyze the formation and localization of their internal representations, and use interventions to examine how these representations relate to behavioral outputs. In our experiment, we first use probing to examine where Big Five information emerges across model depth. We then identify neurons that respond selectively to each Big Five concept and test whether enhancing or suppressing their activations can bias latent representations and label generation in intended directions. We find that Big Five information becomes rapidly decodable in early layers and remains detectable through the final layers, while concept-selective neurons are most prevalent in mid layers and exhibit limited overlap across domains. Interventions on these neurons consistently shift probe readouts toward targeted concepts, with targeted success rates exceeding 0.8 for some concepts, indicating that the model's internal separation of Big Five personality traits can be causally steered. At the label-generation level, the same interventions often bias generated label distributions in the intended directions, but the effects are weaker, more concept-dependent, and often accompanied by cross-trait spillover, indicating that comparable control over generated labels is difficult even with interventions on a large fraction of concept-selective neurons. Overall, our findings reveal a gap between representational control and behavioral control in LLMs.