Negative Before Positive: Asymmetric Valence Processing in Large Language Models
作者: Sohan Venkatesh
分类: cs.CL
发布日期: 2026-05-07
💡 一句话要点
揭示大语言模型中情感效价的非对称处理机制:基于激活修补与干预的深度分析
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机械可解释性 大语言模型 情感计算 因果干预 激活修补 模型对齐 AI安全
📋 核心要点
- 现有研究对大语言模型内部如何表征情感效价缺乏机制层面的理解,难以区分是模型真正理解情感还是仅依赖表面标记匹配。
- 本文利用激活修补与干预技术,系统性地探究了情感效价在模型内部的定位,并验证了其作为可操纵方向的因果属性。
- 实验证实了情感效价处理的非对称性,即负面与正面效价分别在模型早期与中后层处理,为模型行为的可解释性监管提供了新路径。
📝 摘要(中文)
尽管机械可解释性研究已揭示了大语言模型(LLM)中概念的编码方式,但情感内容在机制层面的理解仍显不足。本文探讨了LLM是通过专用内部结构还是表面标记匹配来处理情感效价。通过对开源LLM进行激活修补(activation patching)和干预(steering)实验,研究发现负面和正面效价在网络的不同深度进行处理:负面结果定位于早期层,而正面结果在模型中后层达到峰值。在保持主题不变的情况下反转效价会产生相反的响应,排除了主题检测的影响。在识别出的层级上使用“好消息”方向进行干预,可将中性提示词转向正面效价,证明这些层将效价编码为可操纵的方向。LLM中的情感效价具有局部性、因果性和可控性,为基于可解释性的模型监管提供了具体目标。
🔬 方法详解
问题定义:论文旨在解决大语言模型中情感效价表征的“黑箱”问题。现有研究尚不明确模型处理情感是基于深层语义理解,还是仅仅依赖于训练数据中的表面标记匹配(surface token matching)。
核心思路:研究采用机械可解释性方法,通过因果干预手段验证情感效价是否在模型内部存在特定的表征结构。核心假设是如果情感是模型内部的固有属性,则可以通过定位特定层级的激活并进行干预来改变模型的输出倾向。
技术框架:研究流程分为三个阶段:首先,利用激活修补(Activation Patching)技术定位情感效价处理的关键层;其次,通过控制变量法(固定主题、反转效价)排除主题检测的干扰;最后,在识别出的关键层实施向量干预(Steering),观察模型对中性提示词输出倾向的改变。
关键创新:揭示了情感效价处理的“非对称性”机制,即负面效价优先在早期层处理,而正面效价在深层处理。这一发现挑战了情感处理是单一、统一过程的假设,并证明了情感表征在模型内部具有可操纵的因果方向。
关键设计:实验采用了基于激活向量的干预技术,通过计算特定情感方向的激活差值,将其作为干预向量注入模型。这种方法不依赖于微调,而是直接在推理阶段通过修改中间层激活状态来改变模型的情感输出。
🖼️ 关键图片
📊 实验亮点
实验结果表明,情感效价在模型内部具有明确的层级定位:负面效价主要定位于早期层,正面效价则集中在中后层。通过在这些特定层级注入“好消息”方向的干预向量,研究成功将中性提示词的输出显著转向正面,证明了情感表征的因果性与可操纵性,且该效应独立于输入主题。
🎯 应用场景
该研究在AI安全与对齐领域具有重要价值。通过识别情感效价的内部表征层,开发者可以构建针对性的“情感过滤器”或“干预模块”,有效抑制模型生成有害或偏见内容,同时提升模型在情感交互任务中的可控性与透明度,为构建更安全、可信的AI系统提供技术支撑。
📄 摘要(原文)
Mechanistic interpretability has revealed how concepts are encoded in large language models (LLMs), but emotional content remains poorly understood at the mechanistic level. We study whether LLMs process emotional valence through dedicated internal structure or through surface token matching. Using activation patching and steering on open-source LLMs, we find that negative and positive valence are processed at different network depths. Negative outcomes localize to early layers while positive outcomes peak at mid-to-late layers. Holding topic fixed while flipping valence produces sign-opposite responses, ruling out topic detection. Steering with the good-news direction at the identified layers shifts neutral prompts toward positive valence, showing these layers encode valence as a manipulable direction. Emotional valence in LLMs is localized, causal and steerable, making it a concrete target for interpretability-based oversight.