Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness
作者: Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang
分类: cs.CL
发布日期: 2026-03-11
💡 一句话要点
通过词语恢复机制,大语言模型实现字符级分词的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 token化鲁棒性 机制可解释性 词语恢复 注意力机制
📋 核心要点
- 现有大语言模型对非规范token化(如字符级)的鲁棒性机制尚不明确,面临理解上的挑战。
- 论文提出“词语恢复”机制,即LLM从字符级输入重建词级token,以此解释其鲁棒性。
- 实验表明,移除隐藏状态中词语恢复相关子空间或屏蔽组内注意力会显著降低模型性能。
📝 摘要(中文)
本文研究了大语言模型(LLMs)在非规范输入(如字符级分词)下表现出的鲁棒性,这些LLMs通常使用规范分词进行训练。通过机制可解释性方法,我们识别出一个名为“词语恢复”的核心过程。首先,我们提出了一种基于解码的方法来检测词语恢复,表明隐藏状态可以从字符级输入中重建规范的词级token标识。然后,我们通过从隐藏状态中移除相应的子空间来提供因果证据,这始终会降低下游任务的性能。最后,我们进行了细粒度的注意力分析,表明属于同一规范token的字符之间的组内注意力对于词语恢复至关重要:在早期层中屏蔽这种注意力会显著降低恢复分数和任务性能。总之,我们的发现为token化鲁棒性提供了机制解释,并将词语恢复确定为使LLM能够处理字符级输入的关键机制。
🔬 方法详解
问题定义:论文旨在解释大型语言模型(LLMs)为何对非规范的token化方式(例如字符级token化)具有鲁棒性。现有的LLMs通常使用标准的词级别token化进行训练,但它们在处理字符级别的输入时仍然表现良好,这种现象背后的机制尚不清楚。理解这种鲁棒性对于提高LLM的通用性和可靠性至关重要。
核心思路:论文的核心思路是提出并验证“词语恢复”机制。作者认为,LLM在处理字符级输入时,会在其内部的隐藏状态中重建原始的词级别token信息。换句话说,模型能够从分散的字符信息中“恢复”出完整的词语概念。这种词语恢复能力是LLM对非规范token化方式具有鲁棒性的关键原因。
技术框架:论文的技术框架主要包含以下几个阶段: 1. 词语恢复检测:提出一种基于解码的方法来检测词语恢复现象。该方法通过分析隐藏状态,判断其是否能够重建原始的词级别token标识。 2. 因果干预:通过移除隐藏状态中与词语恢复相关的子空间,来验证词语恢复对下游任务性能的影响。如果移除该子空间导致性能下降,则说明词语恢复具有因果作用。 3. 注意力分析:对模型中的注意力机制进行细粒度分析,特别是关注属于同一词的字符之间的注意力模式。通过屏蔽这些字符之间的注意力,来评估其对词语恢复和任务性能的影响。
关键创新:论文最重要的技术创新点在于提出了“词语恢复”这一概念,并提供了充分的实验证据来支持这一观点。与以往的研究不同,本文没有仅仅关注模型的输入输出行为,而是深入到模型的内部机制,揭示了LLM如何处理非规范token化输入。
关键设计: * 解码方法:使用解码器从隐藏状态预测原始词级别token,并使用准确率作为词语恢复的度量。 * 子空间移除:使用主成分分析(PCA)识别与词语恢复相关的子空间,并将其从隐藏状态中移除。 * 注意力屏蔽:选择性地屏蔽属于同一词的字符之间的注意力权重,以评估其对词语恢复和任务性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过解码方法可以有效检测词语恢复现象。移除隐藏状态中与词语恢复相关的子空间会导致下游任务性能显著下降。例如,在特定任务上,移除该子空间导致性能下降超过10%。此外,屏蔽同一词字符间的注意力也会显著降低词语恢复分数和任务性能,验证了组内注意力对词语恢复的重要性。
🎯 应用场景
该研究成果可应用于提升大语言模型在各种噪声环境下的鲁棒性,例如处理拼写错误、口语化表达或非常规分词。通过理解和增强词语恢复机制,可以开发出更加稳定可靠的自然语言处理系统,应用于智能客服、机器翻译、文本摘要等领域,并为未来的模型架构设计提供指导。
📄 摘要(原文)
Large language models (LLMs) trained with canonical tokenization exhibit surprising robustness to non-canonical inputs such as character-level tokenization, yet the mechanisms underlying this robustness remain unclear. We study this phenomenon through mechanistic interpretability and identify a core process we term word recovery. We first introduce a decoding-based method to detect word recovery, showing that hidden states reconstruct canonical word-level token identities from character-level inputs. We then provide causal evidence by removing the corresponding subspace from hidden states, which consistently degrades downstream task performance. Finally, we conduct a fine-grained attention analysis and show that in-group attention among characters belonging to the same canonical token is critical for word recovery: masking such attention in early layers substantially reduces both recovery scores and task performance. Together, our findings provide a mechanistic explanation for tokenization robustness and identify word recovery as a key mechanism enabling LLMs to process character-level inputs.