Do Language Models Encode Semantic Relations? Probing and Sparse Feature Analysis

📄 arXiv: 2603.17624v1 📥 PDF

作者: Andor Diera, Ansgar Scherp

分类: cs.CL

发布日期: 2026-03-18

备注: accepted at LREC 2026


💡 一句话要点

通过探针和稀疏特征分析,研究语言模型对语义关系的编码能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 语义关系 线性探针 稀疏自编码器 激活修补 可解释性 因果关系

📋 核心要点

  1. 大型语言模型是否能有效捕捉概念间的结构化语义关系仍待考察。
  2. 结合线性探针、稀疏自编码器和激活修补等技术,定位并分析模型中语义关系的编码位置和方式。
  3. 实验揭示了层级关系编码的不对称性,并发现探针级别的因果关系依赖于模型容量。

📝 摘要(中文)

为了解大型语言模型(LLM)是否捕获了结构化语义,本文研究了它们如何表示概念关系。我们研究了三种不同规模的模型:Pythia-70M、GPT-2和Llama 3.1 8B,重点关注四种语义关系:同义、反义、上位和下位关系。我们结合线性探针与可解释性技术,包括稀疏自编码器(SAE)和激活修补,以确定这些关系在何处被编码,以及特定特征如何促进它们的表示。结果揭示了层级关系中的方向不对称性:上位关系被冗余地编码并且难以抑制,而下位关系依赖于紧凑的特征,这些特征更容易被消融破坏。更广泛地说,关系信号是分散的,但表现出稳定的轮廓:它们在中间层达到峰值,并且在残差后/MLP路径中比在注意力机制中更强。难度在模型之间是一致的(反义最容易,同义最难)。探针级别的因果关系依赖于模型容量:在Llama 3.1上,SAE引导的修补能够可靠地转移这些信号,而在较小的模型上,转移是微弱或不稳定的。我们的结果阐明了语义关系在LLM内部何处以及如何可靠地表示,并提供了一个可复现的框架,用于将稀疏特征与探针级别的因果证据联系起来。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在多大程度上编码了语义关系,例如同义、反义、上位和下位关系?现有方法难以精确定位这些关系在模型内部的表示位置,以及哪些特定特征对这些关系的编码起关键作用。

核心思路:通过结合线性探针技术,从模型内部提取语义关系信号,并利用稀疏自编码器(SAE)和激活修补等可解释性技术,分析这些信号与模型内部特定神经元或特征之间的因果关系。核心在于将探针结果与模型内部机制联系起来,从而理解语义关系是如何被编码的。

技术框架:整体框架包含以下几个主要阶段:1) 选择不同规模的语言模型(Pythia-70M, GPT-2, Llama 3.1 8B);2) 定义需要研究的语义关系(同义、反义、上位、下位);3) 使用线性探针从模型中间层提取语义关系信号;4) 利用稀疏自编码器(SAE)学习模型内部的稀疏特征表示;5) 使用激活修补技术,通过干预特定特征的激活值,观察对探针结果的影响,从而建立因果关系。

关键创新:该论文的关键创新在于结合了线性探针和可解释性技术,特别是稀疏自编码器和激活修补,来研究语言模型内部语义关系的编码方式。与传统方法相比,该方法不仅能够识别语义关系的存在,还能深入分析哪些特定特征对这些关系的编码起关键作用,并揭示它们之间的因果关系。

关键设计:关键设计包括:1) 线性探针的设计,用于从模型内部提取语义关系信号;2) 稀疏自编码器(SAE)的训练,用于学习模型内部的稀疏特征表示,目标是找到对语义关系编码有重要影响的神经元;3) 激活修补技术的使用,通过选择性地修改特定神经元的激活值,观察对探针结果的影响,从而建立因果关系。此外,选择不同规模的模型进行对比,可以研究模型容量对语义关系编码的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,上位关系被冗余编码且难以抑制,而下位关系依赖于紧凑的特征,更容易被破坏。关系信号在中间层达到峰值,且在残差后/MLP路径中比在注意力机制中更强。在Llama 3.1上,SAE引导的修补能够可靠地转移探针信号,表明了探针级别的因果关系依赖于模型容量。

🎯 应用场景

该研究成果可应用于提升语言模型的可解释性和可控性,例如,通过理解模型如何编码语义关系,可以更好地控制模型的生成行为,避免生成不符合逻辑或常识的文本。此外,该研究也有助于开发更高效的知识表示方法,并为构建更智能的对话系统和问答系统提供理论基础。

📄 摘要(原文)

Understanding whether large language models (LLMs) capture structured meaning requires examining how they represent concept relationships. In this work, we study three models of increasing scale: Pythia-70M, GPT-2, and Llama 3.1 8B, focusing on four semantic relations: synonymy, antonymy, hypernymy, and hyponymy. We combine linear probing with mechanistic interpretability techniques, including sparse autoencoders (SAE) and activation patching, to identify where these relations are encoded and how specific features contribute to their representation. Our results reveal a directional asymmetry in hierarchical relations: hypernymy is encoded redundantly and resists suppression, while hyponymy relies on compact features that are more easily disrupted by ablation. More broadly, relation signals are diffuse but exhibit stable profiles: they peak in the mid-layers and are stronger in post-residual/MLP pathways than in attention. Difficulty is consistent across models (antonymy easiest, synonymy hardest). Probe-level causality is capacity-dependent: on Llama 3.1, SAE-guided patching reliably shifts these signals, whereas on smaller models the shifts are weak or unstable. Our results clarify where and how reliably semantic relations are represented inside LLMs, and provide a reproducible framework for relating sparse features to probe-level causal evidence.