Perturbation: A simple and efficient adversarial tracer for representation learning in language models
作者: Joshua Rozner, Cory Shain
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-03-25
💡 一句话要点
提出Perturbation:一种简单高效的对抗追踪器,用于语言模型中的表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型 表征学习 对抗样本 扰动分析 可解释性 泛化能力 结构化迁移
📋 核心要点
- 现有语言模型表征学习方法面临在不合理约束和简化表征概念之间的两难。
- 论文提出Perturbation方法,通过对抗样本微调并追踪扰动传播来分析表征。
- 实验表明Perturbation能有效揭示训练后语言模型中的结构化迁移和语言抽象。
📝 摘要(中文)
对深度神经网络语言模型(LMs)中的语言表征学习的研究已经进行了数十年,这既有实践原因,也有理论原因。然而,在LMs中寻找表征仍然是一个未解决的问题,部分原因是由于在对表征施加不切实际的约束(例如,线性;Arora et al. 2024)和完全简化表征的概念(Sutter et al., 2025)之间存在两难。本文通过将表征重新概念化为学习的渠道而不是激活模式来摆脱这种困境。我们的方法很简单:我们通过在单个对抗样本上微调LM来扰动它,并测量这种扰动如何“感染”其他样本。Perturbation不做任何几何假设,并且与其他方法不同,它不会在不应该找到表征的地方(例如,在未经训练的LM中)找到表征。但在经过训练的LM中,Perturbation揭示了多个语言粒度上的结构化迁移,表明LM既沿着表征线泛化,又仅从经验中获得语言抽象。
🔬 方法详解
问题定义:现有语言模型表征学习方法要么对表征施加过于严格的约束(如线性),导致无法捕捉复杂关系;要么过于简化表征的概念,使得分析失去意义。因此,如何有效且合理地在语言模型中找到并理解表征是一个关键问题。
核心思路:论文的核心思路是将表征视为学习的“管道”或“渠道”,而非仅仅是激活模式。通过引入微小的、有针对性的扰动,观察该扰动如何在模型中传播,从而推断模型内部的表征结构和泛化能力。这种方法避免了对表征形式的先验假设。
技术框架:Perturbation方法主要包含以下步骤:1. 选择一个预训练的语言模型。2. 构建一个对抗样本,该样本旨在诱导模型产生特定的错误或行为。3. 使用该对抗样本对模型进行微调,引入扰动。4. 使用一系列测试样本评估模型在微调后的表现,观察扰动对不同样本的影响。5. 分析扰动传播的模式,推断模型内部的表征结构。
关键创新:Perturbation方法的关键创新在于其非侵入性和非假设性。它不依赖于对表征形式的任何先验假设,而是通过观察扰动传播的动态过程来推断表征。与需要预定义表征空间或施加线性约束的方法不同,Perturbation能够揭示更复杂、更灵活的表征形式。
关键设计:对抗样本的设计至关重要,需要精心选择或生成,以确保能够有效地诱导模型产生特定的行为。微调过程中的学习率和迭代次数需要仔细调整,以避免过度拟合对抗样本。此外,测试样本的选择也需要具有代表性,以便能够全面评估扰动的影响。
📊 实验亮点
Perturbation方法在实验中成功揭示了训练后的语言模型在多个语言粒度上的结构化迁移现象,表明语言模型能够沿着表征线进行泛化,并仅从经验中学习到语言抽象。该方法不会在未经训练的语言模型中找到表征,验证了其有效性和可靠性。
🎯 应用场景
该研究成果可应用于分析和理解大型语言模型的内部工作机制,提升模型的可解释性。同时,该方法可以用于评估模型的鲁棒性和泛化能力,指导模型训练和优化,并为开发更可靠、更安全的AI系统提供理论基础。
📄 摘要(原文)
Linguistic representation learning in deep neural language models (LMs) has been studied for decades, for both practical and theoretical reasons. However, finding representations in LMs remains an unsolved problem, in part due to a dilemma between enforcing implausible constraints on representations (e.g., linearity; Arora et al. 2024) and trivializing the notion of representation altogether (Sutter et al., 2025). Here we escape this dilemma by reconceptualizing representations not as patterns of activation but as conduits for learning. Our approach is simple: we perturb an LM by fine-tuning it on a single adversarial example and measure how this perturbation ``infects'' other examples. Perturbation makes no geometric assumptions, and unlike other methods, it does not find representations where it should not (e.g., in untrained LMs). But in trained LMs, perturbation reveals structured transfer at multiple linguistic grain sizes, suggesting that LMs both generalize along representational lines and acquire linguistic abstractions from experience alone.