The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models
作者: Chonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
分类: cs.AI, cs.CL
发布日期: 2026-05-07
备注: 28 pages, including appendices
💡 一句话要点
揭示大模型社会角色表征的“粒度轴”:一种微观到宏观的潜在因果方向
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 表征学习 激活操纵 社会角色扮演 模型可解释性 潜在空间分析
📋 核心要点
- 现有研究未明确大模型内部表征是否系统性地编码了社会角色的粒度层级,导致角色扮演行为的内在机制模糊。
- 论文提出通过对比宏观与微观角色的隐藏状态均值,构建“粒度轴”,并验证其作为角色表征空间主导几何轴的地位。
- 实验证实该轴具有跨模型迁移性,且通过激活操纵可因果性地改变模型输出的宏观/微观倾向,验证了其可控性。
📝 摘要(中文)
大型语言模型常被要求扮演从个人到机构等不同社会角色,但其内部表征是否编码了这些角色的粒度(从微观个人经验到宏观组织/国家推理)尚不明确。本文证明了这种粒度确实存在,并定义了一个基于对比的“粒度轴”,即宏观角色与微观角色隐藏状态的均值之差。在Qwen3-8B中,该轴与角色表征空间的主成分(PC1)高度对齐(余弦相似度0.972),解释了52.6%的方差,表明粒度是组织社会角色的主导几何轴。研究构建了涵盖5个粒度等级的75个社会角色,收集了91,200条响应,验证了该轴在不同层级、提示词和模型(如Llama-3.1-8B)间的稳健性。此外,通过沿该轴进行激活操纵(Activation Steering),可因果性地改变模型响应的粒度,证明了社会角色粒度不仅是表面风格,更是模型行为中结构化、有序且可操纵的潜在方向。
🔬 方法详解
问题定义:研究旨在探究大模型在执行社会角色扮演任务时,其内部隐藏状态是否隐含了从微观(个人)到宏观(机构/国家)的粒度维度,并评估该维度是否具有因果操纵能力。
核心思路:通过对比不同粒度角色的隐藏状态,提取出一个代表“粒度”的潜在方向(Granularity Axis)。假设该方向是模型组织角色知识的几何基石,而非简单的表面特征。
技术框架:首先构建包含5个粒度等级的75个社会角色数据集;其次,在模型推理过程中提取角色相关的隐藏状态;接着,计算宏观与微观角色状态的均值差以定义粒度轴;最后,通过激活操纵技术(Activation Steering)在推理时沿该轴偏移隐藏状态,观察输出响应的变化。
关键创新:首次发现并量化了社会角色粒度在模型几何空间中的主导地位(PC1),并证明了该潜在方向具有因果干预能力,而非仅仅是相关性观察。
关键设计:采用对比学习思想定义轴向量;利用主成分分析(PCA)验证几何对齐度;通过在推理层注入偏移量进行因果干预,并使用五分制量表评估响应的宏观/微观程度。
🖼️ 关键图片
📊 实验亮点
实验表明,在Qwen3-8B中,粒度轴与PC1的余弦相似度高达0.972,解释了52.6%的方差。在Llama-3.1-8B-Instruct上的因果操纵实验显示,通过正向激活操纵,模型在五分制宏观量表上的得分从2.00显著提升至3.17,证明了该轴在不同模型架构间的稳健性与可控性。
🎯 应用场景
该研究在AI对齐与可控生成领域具有重要价值。通过操纵粒度轴,开发者可精准控制模型在处理复杂社会议题时的视角(如从个人叙事切换至政策分析),提升模型在政务咨询、社会科学研究及角色扮演类应用中的专业性与一致性,为理解模型内部决策逻辑提供新视角。
📄 摘要(原文)
Large language models (LLMs) are routinely prompted to take on social roles ranging from individuals to institutions, yet it remains unclear whether their internal representations encode the granularity of such roles, from micro-level individual experience to macro-level organizational, institutional, or national reasoning. We show that they do. We define a contrast-based Granularity Axis as the difference between mean macro- and micro-role hidden states. In Qwen3-8B, this axis aligns with the principal axis (PC1) of the role representation space at cosine 0.972 and accounts for 52.6% of its variance, indicating that granularity is the dominant geometric axis organizing prompted social roles. We construct 75 social roles across five granularity levels and collect 91,200 role-conditioned responses over shared questions and prompt variants, then extract role-level hidden states and project them onto the axis. Role projections increase monotonically across all five levels, remain stable across layers, prompt variants, endpoint definitions, held-out splits, and score-filtered subsets, and transfer to Llama-3.1-8B-Instruct. The axis is also causally relevant: activation steering along it shifts response granularity in the predicted direction, with Llama moving from 2.00 to 3.17 on a five-point macro scale under positive steering on prompts that admit local responses. The two models differ in controllability, suggesting that steering depends on each model's default operating regime. Overall, our findings suggest that social role granularity is not merely a stylistic surface feature, but a structured, ordered, and causally manipulable latent direction in role-conditioned language model behavior.