DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models

📄 arXiv: 2604.27929v1 📥 PDF

作者: Lifan Zheng, Xue Yang, Jiawei Chen, Chenyan Wu, Jingyuan Zhang, Fanheng Kong, Xinyi Zeng, Xiang Chen, Yu Tian

分类: cs.CL

发布日期: 2026-04-30

期刊: ACL 2026 Findings


💡 一句话要点

DPN-LE:通过双重人格神经元定位与编辑实现大语言模型的精准人格控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 人格编辑 神经元定位 对比学习 稀疏干预

📋 核心要点

  1. 现有神经元编辑方法在人格编辑中需修改大量神经元,导致LLM通用能力显著下降,未能有效区分人格相关与非相关神经元。
  2. DPN-LE通过对比高低特质样本的MLP激活,定位人格特异性神经元,并进行稀疏线性干预,实现精准人格控制。
  3. 实验表明,DPN-LE仅干预约0.5%的神经元,即可实现竞争力强的人格控制,并显著提升LLM在推理任务中的能力保持。

📝 摘要(中文)

随着大型语言模型(LLMs)的广泛应用,理解其人格表征机制至关重要。作为人格编辑的一种新范式,现有方法主要采用神经元编辑来定位和修改LLM中的神经元,但需要改变大量神经元,导致性能显著下降。本文探讨并量化了这种特异性,通过评估通用能力影响和表征层面的模式。研究发现:1)现有方法可以改变人格,但会降低整体性能;2)神经元是多功能的,连接人格特质和通用知识;3)相反的人格特质表现出明显互斥的表征模式。受此启发,我们提出了DPN-LE(双重人格神经元定位与编辑),通过对比高特质和低特质样本之间的MLP激活来识别特定于人格的神经元。DPN-LE构建了分层引导向量,并应用基于Cohen's d效应量和激活幅度的双重标准过滤来隔离互斥的神经元子集。对这些神经元进行稀疏线性干预,可以在推理时实现精确的人格控制。仅使用每种特质1,000个对比样本对,DPN-LE干预约0.5%的神经元,同时实现有竞争力的人格控制,并在推理任务中显著更好地保持能力。在LLaMA-3-8B-Instruct和Qwen2.5-7B-Instruct上的实验证明了我们方法的有效性和泛化性。

🔬 方法详解

问题定义:现有的人格编辑方法通过修改大量神经元来实现人格的改变,但这种做法会显著降低LLM的通用能力,因为这些方法没有区分哪些神经元是真正与人格相关的,哪些神经元是负责通用知识的。因此,需要解决的问题是如何在不影响LLM通用能力的前提下,精准地控制其人格。

核心思路:论文的核心思路是通过对比具有高特质和低特质的样本在LLM中的激活模式,来识别那些专门负责表达人格特质的神经元。这种对比学习的方法能够帮助区分人格相关的神经元和那些负责通用知识的神经元,从而实现更精准的干预。

技术框架:DPN-LE方法主要包含以下几个阶段:1) 数据准备:收集具有高特质和低特质的对比样本对。2) 激活提取:将样本输入LLM,提取MLP层的激活值。3) 神经元定位:通过对比高低特质样本的激活值,计算Cohen's d效应量,并结合激活幅度,筛选出人格特异性神经元。4) 引导向量构建:基于筛选出的神经元,构建分层引导向量。5) 稀疏线性干预:在推理时,对LLM的特定神经元进行线性干预,从而控制其人格。

关键创新:DPN-LE的关键创新在于其双重标准的神经元选择方法,即同时考虑Cohen's d效应量和激活幅度。Cohen's d效应量用于衡量神经元激活在不同人格特质下的区分度,而激活幅度则用于确保选择的神经元具有足够的激活强度。这种双重标准能够更准确地定位人格特异性神经元,从而实现更精准的人格控制。

关键设计:DPN-LE的关键设计包括:1) 使用Cohen's d效应量作为神经元选择的主要指标,确保选择的神经元在不同人格特质下具有显著差异。2) 结合激活幅度进行过滤,避免选择激活强度过低的神经元。3) 构建分层引导向量,对不同层级的神经元进行干预。4) 采用稀疏线性干预,仅修改少量神经元,从而降低对LLM通用能力的影响。论文中使用1000个对比样本对,干预约0.5%的神经元。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DPN-LE在LLaMA-3-8B-Instruct和Qwen2.5-7B-Instruct模型上进行了实验,结果表明,仅干预约0.5%的神经元,即可实现与现有方法相当的人格控制效果,同时显著提升了LLM在推理任务中的能力保持。与现有方法相比,DPN-LE在人格控制和能力保持之间取得了更好的平衡。

🎯 应用场景

DPN-LE技术可应用于定制化AI助手、角色扮演游戏、心理健康咨询等领域。通过精准控制LLM的人格特质,可以创建更具个性化和适应性的AI系统,提升用户体验和应用效果。该技术还有助于深入理解LLM内部的人格表征机制,为开发更安全、可控的AI系统奠定基础。

📄 摘要(原文)

With the widespread adoption of large language models (LLMs), understanding their personality representation mechanisms has become critical. As a novel paradigm in Personality Editing, most existing methods employ neuron-editing to locate and modify LLM neurons, requiring changes to numerous neurons and leading to significant performance degradation. This raises a fundamental question: Are all modified neurons directly related to personality representation? In this work, we investigate and quantify this specificity through assessments of general capability impact and representation-level patterns. We find that: 1) Current methods can change personalities but reduce overall performance. 2) Neurons are multifunctional, connecting personality traits and general knowledge. 3) Opposing personality traits demonstrate distinctly mutually exclusive representation patterns. Motivated by these findings, we propose DPN-LE (Dual Personality Neuron Localization and Editing), which identifies personality-specific neurons by contrasting MLP activations between high-trait and low-trait samples. DPN-LE constructs layer-wise steering vectors and applies dual-criterion filtering based on Cohen's $d$ effect size and activation magnitude to isolate mutually exclusive neuron subsets. Sparse linear intervention on these neurons enables precise personality control at inference time. Using only 1,000 contrastive sample pairs per trait, DPN-LE intervenes on $\sim$0.5\% of neurons while achieving competitive personality control and substantially better capability preservation across reasoning tasks. Experiments on LLaMA-3-8B-Instruct and Qwen2.5-7B-Instruct demonstrate the effectiveness and generalizability of our approach.