No Clustering, No Routing: How Transformers Actually Process Rare Tokens

作者: Jing Liu

分类: cs.CL, cs.AI

发布日期: 2025-08-30

💡 一句话要点

揭示Transformer如何处理稀有词汇以提升预测能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 稀有词汇处理 Transformer 神经元影响分析 注意力机制 大型语言模型

📋 核心要点

核心问题：现有大型语言模型在稀有词汇预测方面表现不佳，专门化机制尚不清晰。
方法要点：通过神经元影响分析和消融实验，探讨稀有词汇处理的神经元组织与注意力机制。
实验或效果：发现稀有词汇处理需要额外的神经元，并且这些神经元是空间分布的，未形成模块化结构。

📝 摘要（中文）

大型语言模型在稀有词汇预测方面面临挑战，但其专门化机制尚不明确。先前研究发现稀有词汇的“平台”神经元具有独特的三阶段影响模式，但其功能组织尚不清楚。本文通过神经元影响分析、基于图的聚类和注意力头消融研究了GPT-2 XL和Pythia模型。研究结果表明，稀有词汇处理需要额外的“平台”神经元，形成双重计算机制；这些神经元是空间分布的，而非模块化聚类；注意力机制没有优先路由到专家神经元。这些结果表明，稀有词汇的专门化是通过分布式、训练驱动的差异化实现的，而非架构模块化，保持了上下文敏感的灵活性，同时实现了自适应能力分配。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在稀有词汇预测中的不足，尤其是稀有词汇的专门化机制尚不明确，导致模型性能受限。

核心思路：通过分析神经元的影响力和注意力机制，探讨稀有词汇处理所需的额外神经元及其组织形式，提出稀有词汇处理的双重计算机制。

技术框架：研究采用神经元影响分析、图形聚类和注意力头消融实验，重点分析GPT-2 XL和Pythia模型的神经元分布和功能。

关键创新：提出稀有词汇处理需要额外的“平台”神经元，形成双重计算机制，且这些神经元是空间分布的，而非传统的模块化聚类。

关键设计：在实验中，使用了不同的神经元影响力分析方法，设计了消融实验以验证注意力机制的路由特性，确保了结果的可靠性和有效性。

📊 实验亮点

实验结果显示，稀有词汇处理需要额外的“平台”神经元，且这些神经元在空间上分布而非聚集，注意力机制未对专家神经元进行优先路由。这一发现为理解语言模型的内部机制提供了新的证据。

🎯 应用场景

该研究为大型语言模型在稀有词汇处理中的应用提供了新的视角，可能对自然语言处理、机器翻译和对话系统等领域产生深远影响。通过理解稀有词汇的处理机制，可以进一步优化模型设计，提高其在复杂语言任务中的表现。

📄 摘要（原文）

Large language models struggle with rare token prediction, yet the mechanisms driving their specialization remain unclear. Prior work identified specialized ``plateau'' neurons for rare tokens following distinctive three-regime influence patterns \cite{liu2025emergent}, but their functional organization is unknown. We investigate this through neuron influence analyses, graph-based clustering, and attention head ablations in GPT-2 XL and Pythia models. Our findings show that: (1) rare token processing requires additional plateau neurons beyond the power-law regime sufficient for common tokens, forming dual computational regimes; (2) plateau neurons are spatially distributed rather than forming modular clusters; and (3) attention mechanisms exhibit no preferential routing to specialists. These results demonstrate that rare token specialization arises through distributed, training-driven differentiation rather than architectural modularity, preserving context-sensitive flexibility while achieving adaptive capacity allocation.

No Clustering, No Routing: How Transformers Actually Process Rare Tokens

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册