Valence-Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control

📄 arXiv: 2604.03147 📥 PDF

作者: Lihao Sun, Lewen Yan, Xiaoya Lu, Andrew Lee, Jie Zhang, Jing Shao

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-04-06


💡 一句话要点

提出基于LLM表征空间中效价-唤醒子空间的情感控制方法,实现多行为操控。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 情感控制 效价-唤醒 情感子空间 行为控制

📋 核心要点

  1. 现有方法难以有效控制大语言模型的情感输出,尤其是在拒绝和谄媚等行为上。
  2. 通过识别和操纵LLM表征空间中的效价-唤醒(VA)子空间,实现对模型情感输出的精确控制。
  3. 实验表明,该方法能够跨多种LLM架构有效控制模型的情感表达,并影响其拒绝和谄媚行为。

📝 摘要(中文)

本文提出了一种在大语言模型表征中识别效价-唤醒(VA)子空间的方法。从21.1万个情感标记文本中,我们推导出情感引导向量,然后通过在模型的自报告效价-唤醒得分上进行岭回归,将VA轴学习为顶级PCA成分的线性组合。由此产生的VA子空间表现出与人类情感感知的既定模型一致的圆形几何形状。沿着我们恢复的VA子空间的投影与跨越4.4万个词汇项目的人群包工VA评级相关。此外,沿着这些轴引导生成会在模型输出的相应情感维度中产生单调变化。沿着这些方向引导还会诱导对拒绝和谄媚的近单调双向控制:增加唤醒会减少拒绝并增加谄媚,反之亦然。这些效果在Llama-3.1-8B、Qwen3-8B和Qwen3-14B上复制,证明了跨架构的通用性。我们为这些效应和先前的情感框架控制提供了一种机械解释:与拒绝相关的token(“我不能”、“对不起”)占据低唤醒、负效价区域,因此VA引导直接调节它们的发射概率。

🔬 方法详解

问题定义:现有的大语言模型在情感控制方面存在不足,难以精确控制模型的情感输出,尤其是在拒绝和谄媚等复杂行为上。现有的情感控制方法可能不够通用,无法跨不同的模型架构有效工作。

核心思路:本文的核心思路是在大语言模型的表征空间中识别出一个效价-唤醒(VA)子空间,并利用这个子空间来引导模型的情感输出。通过操纵模型在这个VA子空间中的位置,可以控制模型的情感表达,从而影响其行为。这种方法基于人类情感的VA模型,认为情感可以被分解为效价(积极-消极)和唤醒(平静-激动)两个维度。

技术框架:该方法主要包含以下几个阶段:1) 从大量情感标记文本中提取情感引导向量。2) 利用岭回归,将VA轴学习为情感引导向量的顶级PCA成分的线性组合。3) 将文本投影到学习到的VA子空间中。4) 通过调整文本在VA子空间中的位置,引导模型生成具有特定情感倾向的文本。

关键创新:该方法的关键创新在于识别并利用了LLM表征空间中的VA子空间。与以往的情感控制方法相比,该方法更加通用,可以跨不同的模型架构有效工作。此外,该方法还提供了一种机械解释,解释了VA引导如何影响模型的拒绝和谄媚行为。

关键设计:该方法使用岭回归来学习VA轴,这是一种常用的线性回归方法,可以有效地处理高维数据。情感引导向量是通过对大量情感标记文本进行分析得到的。实验中使用了Llama-3.1-8B、Qwen3-8B和Qwen3-14B等多种LLM架构,验证了该方法的通用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效地控制LLM的情感输出,并影响其拒绝和谄媚行为。具体来说,增加唤醒可以减少拒绝并增加谄媚,反之亦然。这些效果在Llama-3.1-8B、Qwen3-8B和Qwen3-14B等多种LLM架构上得到了验证,证明了该方法的跨架构通用性。该研究还提供了一种机械解释,解释了VA引导如何影响模型的行为。

🎯 应用场景

该研究成果可应用于情感对话系统、情感客服机器人、个性化内容生成等领域。通过控制模型的情感表达,可以提高用户体验,增强人机交互的自然性和流畅性。此外,该方法还可以用于评估和改进LLM的情感安全性,防止模型生成有害或不当的情感内容。

📄 摘要(原文)

We present a method to identify a valence-arousal (VA) subspace within large language model representations. From 211k emotion-labeled texts, we derive emotion steering vectors, then learn VA axes as linear combinations of their top PCA components via ridge regression on the model's self-reported valence-arousal scores. The resulting VA subspace exhibits circular geometry consistent with established models of human emotion perception. Projections along our recovered VA subspace correlate with human-crowdsourced VA ratings across 44k lexical items. Furthermore, steering generation along these axes produces monotonic shifts in the corresponding affective dimensions of model outputs. Steering along these directions also induces near-monotonic bidirectional control over refusal and sycophancy: increasing arousal decreases refusal and increases sycophancy, and vice versa. These effects replicate across Llama-3.1-8B, Qwen3-8B, and Qwen3-14B, demonstrating cross-architecture generality. We provide a mechanistic account for these effects and prior emotionally-framed controls: refusal-associated tokens ("I can't," "sorry") occupy low-arousal, negative-valence regions, so VA steering directly modulates their emission probability.