Categorical Perception in Large Language Model Hidden States: Structural Warping at Digit-Count Boundaries
作者: Jon-Paul Cacioli
分类: cs.CL, cs.AI
发布日期: 2026-03-30
备注: 25 pages, 5 figures, 7 tables. Pre-registered on OSF (osf.io/qrxf3). Code at https://anonymous.4open.science/r/weber-B02C
💡 一句话要点
发现大语言模型隐藏状态中存在类别知觉现象,数字计数边界处结构扭曲
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 类别知觉 表征相似性分析 隐藏状态 数字处理
📋 核心要点
- 现有方法难以解释大语言模型内部表征与人类认知之间的联系,尤其是在感知层面。
- 该研究通过分析LLM处理数字时的隐藏状态,揭示了其内部表征存在类别知觉现象。
- 实验表明,LLM在数字计数边界处存在几何扭曲,且与模型架构和输入格式有关。
📝 摘要(中文)
类别知觉(CP)——在类别边界处增强可辨别性——是感知心理学中最受关注的现象之一。本文报告说,在处理阿拉伯数字的大语言模型(LLM)的隐藏状态表示中,也发生了类似的几何扭曲。通过对来自五个架构系列的六个模型进行表征相似性分析,研究发现,在每个测试模型的所有主要层中,CP加性模型(对数距离加上边界提升)比纯连续模型更适合表征几何。这种效应特定于结构定义的边界(10和100处的数字计数转换),在非边界控制位置不存在,并且在语言类别(热/冷)缺乏token化不连续性的温度域中也不存在。出现了两种性质上不同的特征:“经典CP”(Gemma、Qwen),模型既明确地进行分类又显示几何扭曲;以及“结构CP”(Llama、Mistral、Phi),几何在边界处扭曲,但模型无法报告类别区分。这种分离在边界上是稳定的,并且是架构的属性,而不是刺激的属性。结构输入格式的不连续性足以在大语言模型中产生类别知觉几何,而与显式语义类别知识无关。
🔬 方法详解
问题定义:该论文旨在研究大型语言模型(LLM)在处理阿拉伯数字时,其隐藏状态是否表现出类似于人类的类别知觉(Categorical Perception, CP)现象。现有的研究较少关注LLM内部表征与人类认知之间的联系,尤其是在感知层面。该研究试图填补这一空白,探索LLM是否能够以类似于人类的方式对数字进行分类和表征。
核心思路:核心思路是通过表征相似性分析(Representational Similarity Analysis, RSA)来研究LLM在处理数字时的隐藏状态几何结构。如果LLM表现出CP现象,那么在数字计数边界(如10和100)附近,其隐藏状态的表征距离应该被拉大,从而增强可辨别性。这种几何扭曲可以通过比较不同的模型来验证,并与纯连续模型进行对比。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择多个不同架构的LLM(Gemma, Qwen, Llama, Mistral, Phi等);2) 让这些LLM处理一系列阿拉伯数字;3) 提取LLM在不同层的隐藏状态;4) 使用RSA计算隐藏状态之间的表征相似性;5) 构建CP加性模型(log-distance plus a boundary boost)和纯连续模型,并比较它们与实际表征几何的拟合程度;6) 分析不同模型在不同边界处的CP效应。
关键创新:该研究的关键创新在于发现了LLM中存在“结构CP”现象,即模型在数字计数边界处存在几何扭曲,但无法明确报告类别区分。这表明结构输入格式的不连续性足以在LLM中产生类别知觉几何,而与显式语义类别知识无关。此外,该研究还区分了“经典CP”和“结构CP”两种不同的CP特征,并发现它们与模型架构有关。
关键设计:该研究的关键设计包括:1) 使用RSA来量化隐藏状态的表征相似性;2) 构建CP加性模型和纯连续模型,并使用拟合优度来比较它们与实际表征几何的匹配程度;3) 在数字计数边界和非边界控制位置进行对比实验,以验证CP效应的特异性;4) 在温度域进行对比实验,以排除语言类别的影响。
🖼️ 关键图片
📊 实验亮点
研究发现,CP加性模型在所有测试模型的100%主要层中,比纯连续模型更适合表征几何。在数字计数边界(10和100)处观察到显著的CP效应,而在非边界控制位置和温度域中则未观察到。Gemma和Qwen模型表现出“经典CP”,而Llama、Mistral和Phi模型表现出“结构CP”,表明CP效应与模型架构有关。
🎯 应用场景
该研究的潜在应用领域包括:1) 提升LLM的数字处理能力,例如提高其在数学推理和计算任务中的准确性;2) 更好地理解LLM的内部表征机制,为开发更高效、更可解释的LLM提供理论基础;3) 探索LLM与人类认知之间的联系,为构建更智能的人工智能系统提供借鉴。未来的影响可能包括:促进人机交互的自然性和智能化,以及推动认知科学和人工智能的交叉融合。
📄 摘要(原文)
Categorical perception (CP) -- enhanced discriminability at category boundaries -- is among the most studied phenomena in perceptual psychology. This paper reports that analogous geometric warping occurs in the hidden-state representations of large language models (LLMs) processing Arabic numerals. Using representational similarity analysis across six models from five architecture families, the study finds that a CP-additive model (log-distance plus a boundary boost) fits the representational geometry better than a purely continuous model at 100% of primary layers in every model tested. The effect is specific to structurally defined boundaries (digit-count transitions at 10 and 100), absent at non-boundary control positions, and absent in the temperature domain where linguistic categories (hot/cold) lack a tokenisation discontinuity. Two qualitatively distinct signatures emerge: "classic CP" (Gemma, Qwen), where models both categorise explicitly and show geometric warping, and "structural CP" (Llama, Mistral, Phi), where geometry warps at the boundary but models cannot report the category distinction. This dissociation is stable across boundaries and is a property of the architecture, not the stimulus. Structural input-format discontinuities are sufficient to produce categorical perception geometry in LLMs, independently of explicit semantic category knowledge.