Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
作者: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-29 (更新: 2025-12-02)
💡 一句话要点
提出超维探针,通过向量符号架构解码大型语言模型表征
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 向量符号架构 神经探针 表征学习
📋 核心要点
- 现有LLM可解释性方法难以同时兼顾输入特征提取和输出分布检查,限制了对模型内部表征的全面理解。
- 提出超维探针,结合向量符号架构和神经探针,统一了监督探针、稀疏自编码器和logit分析等方法。
- 实验表明,该方法能有效提取LLM中的概念,揭示类比推理和QA生成中的概念驱动模式,支持联合输入输出分析。
📝 摘要(中文)
大型语言模型(LLM)的能力强大,但其内部表征仍然不透明,我们对其理解有限。现有的可解释性方法要么侧重于面向输入的特征提取,如监督探针和稀疏自编码器(SAE),要么侧重于输出分布检查,如面向logits的方法。然而,要全面理解LLM向量空间,需要整合这两种视角,但现有方法由于对潜在特征定义的约束而难以做到。我们引入了超维探针,这是一种混合监督探针,它将符号表征与神经探针相结合。利用向量符号架构(VSA)和超向量代数,它统一了先前的方法:监督探针的自顶向下可解释性、SAE的稀疏驱动代理空间以及面向输出的logit调查。这使得更深入的、以输入为中心的特征提取成为可能,同时支持面向输出的调查。我们的实验表明,我们的方法始终如一地提取跨LLM、嵌入大小和设置的有意义的概念,揭示了面向类比的推理和以QA为中心的文本生成中概念驱动的模式。通过支持联合输入-输出分析,这项工作促进了对神经表征的语义理解,同时统一了先前方法的互补视角。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)内部表征不透明的问题。现有方法,如监督探针和稀疏自编码器(SAE),侧重于输入特征提取,而logit分析侧重于输出分布检查。这些方法无法有效整合输入和输出视角,限制了对LLM向量空间的全面理解。现有方法在定义潜在特征时存在约束,难以进行深入的输入特征提取和输出导向的分析。
核心思路:论文的核心思路是利用向量符号架构(VSA)和超向量代数,构建一个混合监督探针,称为超维探针。VSA允许使用高维向量来表示符号概念,并使用向量代数操作来组合和操作这些概念。通过将符号表征与神经探针相结合,超维探针能够统一先前的方法,实现输入和输出的联合分析,从而更深入地理解LLM的内部表征。这种设计旨在克服现有方法在特征定义和视角整合方面的局限性。
技术框架:超维探针的技术框架包含以下几个主要模块:1)概念编码:使用VSA将概念编码为超向量。2)神经探针:使用神经网络学习LLM的内部表征与概念超向量之间的映射关系。3)联合分析:通过分析LLM表征与概念超向量之间的关系,实现输入和输出的联合分析。该框架允许研究人员从输入和输出两个角度理解LLM的内部运作机制。
关键创新:最重要的技术创新点在于将向量符号架构(VSA)与神经探针相结合。VSA提供了一种符号化的表征方式,可以清晰地表达概念之间的关系,而神经探针则可以学习LLM的内部表征。这种结合使得超维探针能够同时利用符号表征的清晰性和神经探针的学习能力,从而实现更深入的LLM内部表征理解。与现有方法相比,超维探针能够更好地整合输入和输出视角,克服了现有方法在特征定义和视角整合方面的局限性。
关键设计:超维探针的关键设计包括:1)超向量维度:超向量的维度是一个重要的参数,需要根据具体任务进行调整。2)神经探针结构:神经探针的网络结构也会影响其学习能力,需要根据LLM的结构和任务的复杂性进行选择。3)损失函数:损失函数用于衡量神经探针的预测结果与真实概念之间的差异,需要根据具体任务进行设计。论文中可能使用了余弦相似度或交叉熵等损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,超维探针能够有效地提取LLM中的概念,并在类比推理和QA生成任务中揭示了概念驱动的模式。该方法在不同LLM、嵌入大小和设置下均表现出一致的性能,证明了其通用性和有效性。通过支持联合输入-输出分析,该方法为理解LLM的内部表征提供了新的视角。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可解释性和可控性,例如,通过理解模型内部的概念表征,可以更好地控制模型的生成行为,避免生成不安全或不符合要求的文本。此外,该方法还可以用于分析模型的推理过程,诊断模型错误的原因,从而提高模型的鲁棒性和可靠性。该研究对于开发更安全、更可靠、更可控的LLM具有重要意义。
📄 摘要(原文)
Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods either focus on input-oriented feature extraction, such as supervised probes and Sparse Autoencoders (SAEs), or on output distribution inspection, such as logit-oriented approaches. A full understanding of LLM vector spaces, however, requires integrating both perspectives, something existing approaches struggle with due to constraints on latent feature definitions. We introduce the Hyperdimensional Probe, a hybrid supervised probe that combines symbolic representations with neural probing. Leveraging Vector Symbolic Architectures (VSAs) and hypervector algebra, it unifies prior methods: the top-down interpretability of supervised probes, SAE's sparsity-driven proxy space, and output-oriented logit investigation. This allows deeper input-focused feature extraction while supporting output-oriented investigation. Our experiments show that our method consistently extracts meaningful concepts across LLMs, embedding sizes, and setups, uncovering concept-driven patterns in analogy-oriented inference and QA-focused text generation. By supporting joint input-output analysis, this work advances semantic understanding of neural representations while unifying the complementary perspectives of prior methods.