No Clustering, No Routing: How Transformers Actually Process Rare Tokens
作者: Jing Liu
分类: cs.CL, cs.AI
发布日期: 2025-08-30
💡 一句话要点
揭示Transformer如何处理稀有词汇以提升预测能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稀有词汇处理 Transformer 神经元影响分析 注意力机制 大型语言模型
📋 核心要点
- 核心问题:现有大型语言模型在稀有词汇预测方面表现不佳,专门化机制尚不清晰。
- 方法要点:通过神经元影响分析和消融实验,探讨稀有词汇处理的神经元组织与注意力机制。
- 实验或效果:发现稀有词汇处理需要额外的神经元,并且这些神经元是空间分布的,未形成模块化结构。
📝 摘要(中文)
大型语言模型在稀有词汇预测方面面临挑战,但其专门化机制尚不明确。先前研究发现稀有词汇的“平台”神经元具有独特的三阶段影响模式,但其功能组织尚不清楚。本文通过神经元影响分析、基于图的聚类和注意力头消融研究了GPT-2 XL和Pythia模型。研究结果表明,稀有词汇处理需要额外的“平台”神经元,形成双重计算机制;这些神经元是空间分布的,而非模块化聚类;注意力机制没有优先路由到专家神经元。这些结果表明,稀有词汇的专门化是通过分布式、训练驱动的差异化实现的,而非架构模块化,保持了上下文敏感的灵活性,同时实现了自适应能力分配。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在稀有词汇预测中的不足,尤其是稀有词汇的专门化机制尚不明确,导致模型性能受限。
核心思路:通过分析神经元的影响力和注意力机制,探讨稀有词汇处理所需的额外神经元及其组织形式,提出稀有词汇处理的双重计算机制。
技术框架:研究采用神经元影响分析、图形聚类和注意力头消融实验,重点分析GPT-2 XL和Pythia模型的神经元分布和功能。
关键创新:提出稀有词汇处理需要额外的“平台”神经元,形成双重计算机制,且这些神经元是空间分布的,而非传统的模块化聚类。
关键设计:在实验中,使用了不同的神经元影响力分析方法,设计了消融实验以验证注意力机制的路由特性,确保了结果的可靠性和有效性。
📊 实验亮点
实验结果显示,稀有词汇处理需要额外的“平台”神经元,且这些神经元在空间上分布而非聚集,注意力机制未对专家神经元进行优先路由。这一发现为理解语言模型的内部机制提供了新的证据。
🎯 应用场景
该研究为大型语言模型在稀有词汇处理中的应用提供了新的视角,可能对自然语言处理、机器翻译和对话系统等领域产生深远影响。通过理解稀有词汇的处理机制,可以进一步优化模型设计,提高其在复杂语言任务中的表现。
📄 摘要(原文)
Large language models struggle with rare token prediction, yet the mechanisms driving their specialization remain unclear. Prior work identified specialized ``plateau'' neurons for rare tokens following distinctive three-regime influence patterns \cite{liu2025emergent}, but their functional organization is unknown. We investigate this through neuron influence analyses, graph-based clustering, and attention head ablations in GPT-2 XL and Pythia models. Our findings show that: (1) rare token processing requires additional plateau neurons beyond the power-law regime sufficient for common tokens, forming dual computational regimes; (2) plateau neurons are spatially distributed rather than forming modular clusters; and (3) attention mechanisms exhibit no preferential routing to specialists. These results demonstrate that rare token specialization arises through distributed, training-driven differentiation rather than architectural modularity, preserving context-sensitive flexibility while achieving adaptive capacity allocation.