Extracting and Steering Emotion Representations in Small Language Models: A Methodological Comparison

📄 arXiv: 2604.04064 📥 PDF

作者: Jihoon Jeong

分类: cs.CL, cs.AI

发布日期: 2026-04-07


💡 一句话要点

对比分析小语言模型中的情绪表征提取与操控方法,揭示跨语言安全隐患。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 小语言模型 情绪表征 情绪提取 情绪操控 跨语言安全 模型医学 表征分析

📋 核心要点

  1. 现有研究对小语言模型(SLMs)的情绪表征能力了解不足,缺乏系统性的提取和操控方法比较。
  2. 通过对比基于生成和理解的提取方法,并结合情绪操控实验,深入分析SLMs中的情绪表征。
  3. 实验发现基于生成的提取方法更优,情绪表征位于中间层,并揭示了Qwen模型中跨语言情绪纠缠的安全隐患。

📝 摘要(中文)

本文首次对比分析了小语言模型(SLMs)中的情绪向量提取方法,评估了5种架构(GPT-2, Gemma, Qwen, Llama, Mistral)的9个模型,使用了20种情绪和两种提取方法(基于生成和基于理解)。基于生成的提取方法在情绪分离方面表现出统计上的优势(Mann-Whitney p = 0.007; Cohen's d = -107.5),这种优势受到指令微调和架构的影响。情绪表征定位于中间Transformer层(约50%深度),遵循一个U型曲线,该曲线在124M到3B参数范围内是架构不变的。通过对4个模型进行表征各向异性基线验证,并进行操控实验验证了这些发现的因果行为效应,由外部情绪分类器独立验证(92%成功率,37/40场景)。操控揭示了三种状态——外科手术式(连贯的文本转换)、重复崩溃和爆炸式(文本退化),这些状态由困惑度比率量化,并由模型架构而非规模分隔。本文记录了Qwen中的跨语言情绪纠缠,其中操控激活了语义对齐的中文tokens,而RLHF并未抑制这些tokens,从而引发了多语言部署的安全性问题。这项工作为开放权重模型的情绪研究提供了方法论指导,并通过将外部行为分析与内部表征分析相结合,为模型医学系列做出了贡献。

🔬 方法详解

问题定义:论文旨在研究小语言模型(SLMs)是否具备类似于大型语言模型的情绪表征能力,并比较不同的情绪提取方法在SLMs上的效果。现有方法主要集中在大型模型上,缺乏对SLMs的系统性研究,同时也缺乏对不同提取方法优劣的比较。

核心思路:论文的核心思路是通过对比基于生成和基于理解两种不同的情绪提取方法,评估它们在不同架构和规模的SLMs上的表现。同时,通过情绪操控实验,验证提取到的情绪表征的有效性,并分析操控过程中出现的不同状态。

技术框架:整体框架包括以下几个主要阶段:1) 选择不同架构和规模的SLMs;2) 使用基于生成和基于理解两种方法提取情绪向量;3) 通过统计指标评估提取到的情绪表征的质量;4) 进行情绪操控实验,观察模型行为变化;5) 使用外部情绪分类器验证操控效果;6) 分析实验结果,揭示模型内部情绪表征的特点和潜在的安全隐患。

关键创新:论文的主要创新点在于:1) 首次对SLMs的情绪表征提取方法进行了系统性的比较分析;2) 揭示了情绪表征在SLMs中的位置和特点,例如位于中间层并呈现U型曲线;3) 发现了Qwen模型中跨语言情绪纠缠的安全隐患,即操控一种语言的情绪可能会影响另一种语言的输出;4) 提出了量化情绪操控效果的方法,例如使用困惑度比率来区分不同的操控状态。

关键设计:在情绪提取方面,论文对比了基于生成和基于理解两种方法。基于生成的方法通过指令模型生成特定情绪的文本,然后提取激活向量。基于理解的方法则直接分析模型对特定情绪文本的表征。在情绪操控方面,论文通过将提取到的情绪向量添加到模型的激活向量中,从而引导模型生成具有特定情绪的文本。论文还使用了困惑度比率来量化操控效果,并使用外部情绪分类器来验证操控的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于生成的提取方法在情绪分离方面优于基于理解的方法(Mann-Whitney p = 0.007; Cohen's d = -107.5)。情绪表征位于Transformer的中间层,并呈现U型曲线。情绪操控实验的成功率为92%(37/40场景)。此外,研究还发现Qwen模型存在跨语言情绪纠缠,操控一种语言的情绪会影响另一种语言的输出。

🎯 应用场景

该研究成果可应用于提升小语言模型的情感控制能力,例如在对话系统中控制回复的情感倾向,或在内容生成中生成具有特定情感色彩的文本。同时,该研究揭示的跨语言情绪纠缠问题,对多语言模型的安全部署具有重要的指导意义,有助于开发更安全可靠的多语言AI系统。

📄 摘要(原文)

Small language models (SLMs) in the 100M-10B parameter range increasingly power production systems, yet whether they possess the internal emotion representations recently discovered in frontier models remains unknown. We present the first comparative analysis of emotion vector extraction methods for SLMs, evaluating 9 models across 5 architectural families (GPT-2, Gemma, Qwen, Llama, Mistral) using 20 emotions and two extraction methods (generation-based and comprehension-based). Generation-based extraction produces statistically superior emotion separation (Mann-Whitney p = 0.007; Cohen's d = -107.5), with the advantage modulated by instruction tuning and architecture. Emotion representations localize at middle transformer layers (~50% depth), following a U-shaped curve that is architecture-invariant from 124M to 3B parameters. We validate these findings against representational anisotropy baselines across 4 models and confirm causal behavioral effects through steering experiments, independently verified by an external emotion classifier (92% success rate, 37/40 scenarios). Steering reveals three regimes -- surgical (coherent text transformation), repetitive collapse, and explosive (text degradation) -- quantified by perplexity ratios and separated by model architecture rather than scale. We document cross-lingual emotion entanglement in Qwen, where steering activates semantically aligned Chinese tokens that RLHF does not suppress, raising safety concerns for multilingual deployment. This work provides methodological guidelines for emotion research on open-weight models and contributes to the Model Medicine series by bridging external behavioral profiling with internal representational analysis.