Training-Driven Representational Geometry Modularization Predicts Brain Alignment in Language Models

作者: Yixuan Liu, Zhiyuan Ma, Likai Tang, Runmin Gan, Xinche Zhang, Jinhao Li, Chao Xie, Sen Song

分类: q-bio.NC, cs.CL

发布日期: 2026-02-07

💡 一句话要点

训练驱动的表征几何模块化预测语言模型中的大脑对齐

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 表征几何 大脑对齐 神经表征 认知科学

📋 核心要点

大型语言模型与人脑语言处理的对齐程度是认知科学的关键问题，现有方法缺乏对模型内部表征几何的深入理解。
该研究通过追踪LLM训练过程中的表征几何变化（熵、曲率），揭示了模型层自组织成低/高复杂度模块的现象。
实验表明，低复杂度模块的几何特征（低熵、低曲率）能更好地预测人脑语言网络活动，尤其是在颞叶区域。

📝 摘要（中文）

大型语言模型(LLMs)如何与人类语言的神经表征和计算对齐是认知科学的核心问题。本文以表征几何为视角，通过追踪Pythia模型(70M-1B)训练过程中的熵、曲率和fMRI编码得分来研究这个问题。研究发现了一种几何模块化现象，即模型层自组织成稳定的低复杂度和高复杂度簇。低复杂度模块以较低的熵和曲率为特征，能够更好地预测人类语言网络活动。这种对齐遵循异质的时空轨迹：在颞叶区域(AntTemp, PostTemp)快速且稳定，但在额叶区域(IFG, IFGorb)延迟且动态。关键的是，即使在控制了训练进度后，降低的曲率仍然是模型-大脑对齐的可靠预测指标，并且这种效应随着模型规模的扩大而增强。这些结果将训练驱动的几何重组与颞叶-额叶功能专门化联系起来，表明表征平滑促进了类似神经的语言处理。

🔬 方法详解

问题定义：该论文旨在研究大型语言模型（LLMs）如何与人类大脑的语言处理机制对齐。现有方法通常关注模型性能或直接比较模型输出与大脑活动，但缺乏对模型内部表征几何的深入理解，难以解释对齐现象背后的机制。

核心思路：论文的核心思路是通过追踪LLM训练过程中表征几何的变化，寻找与大脑活动相关的几何特征。具体来说，研究关注熵和曲率这两个几何指标，并假设模型层会自组织成具有不同复杂度的模块，这些模块可能对应于大脑中不同的功能区域。

技术框架：整体框架包括以下几个主要步骤：1) 使用Pythia系列模型（70M-1B）进行训练；2) 在训练过程中，定期提取模型各层的表征，并计算其熵和曲率；3) 使用fMRI数据测量人类大脑在语言处理任务中的活动；4) 将模型的几何特征（熵、曲率）与fMRI数据进行关联，评估模型与大脑的对齐程度；5) 分析不同脑区（颞叶、额叶）的对齐轨迹。

关键创新：该研究的关键创新在于：1) 将表征几何引入到LLM与大脑对齐的研究中，提供了一种新的分析视角；2) 发现了训练驱动的几何模块化现象，即模型层自组织成低复杂度和高复杂度模块；3) 证明了低曲率是模型-大脑对齐的可靠预测指标，即使在控制了训练进度后仍然有效。

关键设计：论文的关键设计包括：1) 使用Pythia模型，因为它是一个开源的、可复现的LLM；2) 使用熵和曲率作为表征几何的指标，因为它们可以反映表征的复杂度和平滑程度；3) 使用fMRI数据作为大脑活动的测量，因为它具有较高的空间分辨率；4) 使用编码模型将模型的几何特征与fMRI数据进行关联，评估模型与大脑的对齐程度。

🖼️ 关键图片

📊 实验亮点

研究发现，在Pythia模型训练过程中，模型层自组织成低复杂度和高复杂度模块，其中低复杂度模块（低熵、低曲率）能更好地预测人脑语言网络活动。即使控制训练进度后，低曲率仍然是模型-大脑对齐的可靠预测指标，且该效应随模型规模增大而增强。颞叶区域的对齐快速稳定，而额叶区域的对齐延迟且动态。

🎯 应用场景

该研究成果可应用于指导LLM的训练和设计，使其更符合人类大脑的认知机制，提高其在自然语言处理任务中的性能和泛化能力。此外，该研究也有助于深入理解人类语言的神经基础，为认知科学和神经科学提供新的见解。

📄 摘要（原文）

How large language models (LLMs) align with the neural representation and computation of human language is a central question in cognitive science. Using representational geometry as a mechanistic lens, we addressed this by tracking entropy, curvature, and fMRI encoding scores throughout Pythia (70M-1B) training. We identified a geometric modularization where layers self-organize into stable low- and high-complexity clusters. The low-complexity module, characterized by reduced entropy and curvature, consistently better predicted human language network activity. This alignment followed heterogeneous spatial-temporal trajectories: rapid and stable in temporal regions (AntTemp, PostTemp), but delayed and dynamic in frontal areas (IFG, IFGorb). Crucially, reduced curvature remained a robust predictor of model-brain alignment even after controlling for training progress, an effect that strengthened with model scale. These results links training-driven geometric reorganization to temporal-frontal functional specialization, suggesting that representational smoothing facilitates neural-like linguistic processing.

Training-Driven Representational Geometry Modularization Predicts Brain Alignment in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理