Brain-Grounded Axes for Reading and Steering LLM States
作者: Sandro Andric
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-12-22
备注: 10 pages, 4 figures. Code: https://github.com/sandroandric/Brain-Grounded-Axes-for-Reading-and-Steering-LLM-States
💡 一句话要点
提出基于人脑活动的LLM状态解读与操控方法,实现神经生理学层面可控性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 神经生理学 脑活动 模型操控
📋 核心要点
- 现有LLM可解释性方法依赖文本监督,缺乏外部依据,难以保证结果的客观性和泛化性。
- 利用人脑活动构建LLM状态的坐标系,通过脑活动图谱提取潜在轴,实现神经生理学层面的解读与操控。
- 实验表明,该方法能够有效提取LLM中与词汇频率和功能/内容相关的轴,并在多个模型上验证了其有效性。
📝 摘要(中文)
本文提出了一种利用人脑活动作为坐标系来解读和操控大型语言模型(LLM)状态的方法。该方法不使用人脑活动作为训练信号,而是利用SMN4Lang MEG数据集构建词级别的脑活动图谱(基于相位锁定值PLV模式),并通过ICA提取潜在轴。通过独立的词汇表和基于NER的标签验证轴的有效性,并训练轻量级适配器将LLM隐藏状态映射到这些脑轴,无需微调LLM。实验结果表明,该方法在TinyLlama中产生了一个鲁棒的词汇(频率相关)轴,且优于控制基线。功能/内容轴(轴13)在TinyLlama、Qwen2-0.5B和GPT-2中表现出一致的操控性。探索性fMRI分析表明嵌入变化和词频之间存在潜在的对齐关系。这些结果表明,神经生理学基础的轴为LLM行为提供了可解释和可控的接口。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)可解释性方法主要依赖于文本监督,这种方法缺乏外部的客观依据,难以保证结果的可靠性和泛化性。因此,如何找到一种更具外部依据、更可靠的LLM状态解读和操控方法是一个关键问题。
核心思路:本文的核心思路是利用人脑活动作为LLM状态的坐标系。具体来说,就是将人脑对语言的神经生理反应(通过MEG和fMRI等技术获取)映射到LLM的内部状态,从而实现对LLM行为的解读和操控。这种方法的核心在于,人脑活动提供了一个独立于文本的外部参照系,可以更客观地理解LLM的内部表征。
技术框架:整体框架包括以下几个主要步骤:1) 构建脑活动图谱:使用SMN4Lang MEG数据集,构建词级别的脑活动图谱,该图谱基于相位锁定值(PLV)模式。2) 提取潜在轴:通过独立成分分析(ICA)从脑活动图谱中提取潜在轴,这些轴代表了大脑对不同语言特征的反应模式。3) 验证轴的有效性:使用独立的词汇表和基于命名实体识别(NER)的标签来验证提取的轴的有效性。4) 训练适配器:训练轻量级适配器,将LLM的隐藏状态映射到这些脑轴,无需对LLM进行微调。5) 操控LLM:通过调整LLM在这些脑轴上的投影,实现对LLM行为的操控。
关键创新:最重要的技术创新点在于使用人脑活动作为LLM状态的坐标系。与传统的基于文本监督的方法相比,这种方法具有以下优势:1) 提供了外部的客观依据,避免了文本监督的局限性。2) 可以更好地理解LLM的内部表征,揭示LLM与人类认知之间的联系。3) 为LLM的操控提供了新的途径,可以实现更精细、更可控的LLM行为。
关键设计:关键的设计包括:1) 使用相位锁定值(PLV)作为脑活动图谱的特征,PLV能够反映不同脑区之间的同步活动。2) 使用独立成分分析(ICA)提取潜在轴,ICA能够将复杂的脑活动分解为独立的成分。3) 训练轻量级适配器,将LLM的隐藏状态映射到脑轴,适配器的训练目标是最小化LLM隐藏状态与脑轴之间的距离。4) 使用困惑度(PPL)匹配的控制实验,验证脑轴的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够在TinyLlama中提取出一个鲁棒的词汇(频率相关)轴,且优于困惑度匹配的控制基线。功能/内容轴(轴13)在TinyLlama、Qwen2-0.5B和GPT-2中表现出一致的操控性。与文本探针相比,脑轴在对数频率上的偏移更大,且困惑度更低。
🎯 应用场景
该研究成果可应用于提升LLM的可解释性和可控性,例如,可以用于开发更安全、更可靠的LLM,避免LLM产生有害或不符合伦理规范的内容。此外,该研究还可以促进对人类语言认知机制的理解,为神经语言学研究提供新的工具和视角。
📄 摘要(原文)
Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.