Shared Emotion Geometry Across Small Language Models: A Cross-Architecture Study of Representation, Behavior, and Methodological Confounds

📄 arXiv: 2604.11050v1 📥 PDF

作者: Jihoon Jeong

分类: cs.CL, cs.AI

发布日期: 2026-04-13

备注: 34 pages, 6 figures, 1 table in main text + appendix. Ongoing series on Model Medicine


💡 一句话要点

揭示小语言模型间共享的情感几何结构,并剖析相关方法学偏差

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 情感分析 小语言模型 表征学习 几何结构 表征相似性分析

📋 核心要点

  1. 现有情感分析研究缺乏对小语言模型间情感表征一致性的深入分析,以及对方法学偏差的系统性剖析。
  2. 本文通过表征相似性分析,揭示了多种成熟小语言模型共享的情感几何结构,并探究了行为差异与情感表征的关系。
  3. 实验表明,成熟模型间情感几何结构高度一致,且RLHF仅重构未组织的表征,并对现有方法学偏差进行了解构。

📝 摘要(中文)

本文从十二个小型语言模型(六种架构 x 基础/指令微调,参数量1B-8B)中提取了21种情感向量集,这些模型在统一的理解模式管道下以fp16精度运行。通过对原始余弦RDMs进行表征相似性分析,比较了由此产生的几何结构。五种成熟的架构(Qwen 2.5 1.5B、SmolLM2 1.7B、Llama 3.2 3B、Mistral 7B v0.3、Llama 3.1 8B)共享几乎相同的21种情感几何结构,成对RDM Spearman相关性为0.74-0.92。这种普遍性在截然相反的行为特征中依然存在:Qwen 2.5和Llama 3.2占据MTI合规性方面的两极,但产生几乎相同的情感RDMs(rho = 0.81),因此行为特征的差异出现在共享情感表征之上。Gemma-3 1B基础模型是我们数据集中唯一不成熟的案例,表现出极端的残差流各向异性(0.997),并通过RLHF在所有几何描述符上进行了重构,而五个已经成熟的家族表现出家族内基础模型x指令微调RDM相关性rho >= 0.92(Mistral 7B v0.3的rho = 0.985),表明RLHF仅重构尚未组织的表征。在方法论上,我们表明,先前工作解读为单一的理解与生成方法效应实际上分解为四个不同的层次——粗略的方法依赖性解离、生成中鲁棒的子参数敏感性、真实的精度(fp16 vs INT8)效应,以及混合的跨实验偏差,这种偏差对不同的模型产生相反方向的扭曲——因此,如果没有分层分解,两个先前情感向量研究之间的单一rho值并不是解释的安全基础。

🔬 方法详解

问题定义:现有情感分析研究通常关注单个模型的情感表征,缺乏对不同架构小语言模型间情感表征一致性的系统性研究。此外,现有研究对理解和生成方法之间的差异存在片面解读,忽略了精度、实验偏差等因素的影响。

核心思路:本文的核心思路是通过表征相似性分析(RSA),比较不同小语言模型在情感向量空间中的几何结构,从而揭示模型间共享的情感表征。同时,通过分层解构方法,剖析理解和生成方法差异背后的多重因素,包括方法依赖性、参数敏感性、精度效应和实验偏差。

技术框架:本文的技术框架主要包括以下几个步骤:1) 从12个小语言模型中提取21种情感向量集;2) 使用余弦相似度计算情感向量之间的表征距离矩阵(RDM);3) 通过Spearman相关性分析比较不同模型之间的RDMs,评估情感几何结构的相似性;4) 对理解和生成方法差异进行分层解构,识别不同层次的影响因素。

关键创新:本文最重要的技术创新点在于:1) 揭示了多种成熟小语言模型共享的情感几何结构,表明情感表征在不同架构的模型中具有一定的通用性;2) 对理解和生成方法差异进行了分层解构,识别了精度、实验偏差等因素对结果的影响,为后续研究提供了更准确的方法论指导。

关键设计:在情感向量提取方面,采用了统一的理解模式管道,并使用fp16精度,以保证结果的可比性。在表征相似性分析方面,使用了余弦相似度和Spearman相关性,以评估情感几何结构的相似性。在分层解构方面,通过控制变量法,逐步分析不同因素对结果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,五种成熟的小语言模型(Qwen 2.5 1.5B、SmolLM2 1.7B、Llama 3.2 3B、Mistral 7B v0.3、Llama 3.1 8B)共享几乎相同的情感几何结构,成对RDM Spearman相关性为0.74-0.92。同时,研究发现RLHF仅重构尚未组织的表征,成熟模型家族内的基础模型和指令微调模型RDM相关性rho >= 0.92。

🎯 应用场景

该研究成果可应用于提升情感分析模型的鲁棒性和泛化能力,例如通过知识迁移,将成熟模型的情感表征迁移到新模型中。此外,该研究对方法学偏差的剖析,有助于研究人员更准确地评估不同情感分析模型的性能,并设计更可靠的实验。

📄 摘要(原文)

We extract 21-emotion vector sets from twelve small language models (six architectures x base/instruct, 1B-8B parameters) under a unified comprehension-mode pipeline at fp16 precision, and compare the resulting geometries via representational similarity analysis on raw cosine RDMs. The five mature architectures (Qwen 2.5 1.5B, SmolLM2 1.7B, Llama 3.2 3B, Mistral 7B v0.3, Llama 3.1 8B) share nearly identical 21-emotion geometry, with pairwise RDM Spearman correlations of 0.74-0.92. This universality persists across diametrically opposed behavioral profiles: Qwen 2.5 and Llama 3.2 occupy opposite poles of MTI Compliance facets yet produce nearly identical emotion RDMs (rho = 0.81), so behavioral facet differences arise above the shared emotion representation. Gemma-3 1B base, the one immature case in our dataset, exhibits extreme residual-stream anisotropy (0.997) and is restructured by RLHF across all geometric descriptors, whereas the five already-mature families show within-family base x instruct RDM correlations of rho >= 0.92 (Mistral 7B v0.3 at rho = 0.985), suggesting RLHF restructures only representations that are not yet organized. Methodologically, we show that what prior work has read as a single comprehension-vs-generation method effect in fact decomposes into four distinct layers -- a coarse method-dependent dissociation, robust sub-parameter sensitivity within generation, a true precision (fp16 vs INT8) effect, and a conflated cross-experiment bias that distorts in opposite directions for different models -- so that a single rho between two prior emotion-vector studies is not a safe basis for interpretation without the layered decomposition.