Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorization Risks
作者: Yixuan Xu, Antoni-Joan Solergibert i Llaquet, Antoine Bosselut, Imanol Schlag
分类: cs.CL
发布日期: 2025-05-19 (更新: 2025-05-28)
💡 一句话要点
揭示LLM的位置脆弱性:偏移效应如何影响记忆风险认知
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 记忆风险 位置偏移 位置脆弱性 偏移效应
📋 核心要点
- 现有研究忽略了LLM记忆风险评估中位置偏移的影响,通常假设训练序列起始位置的记忆效果具有代表性。
- 该研究发现LLM对上下文窗口起始位置的token过度依赖,导致位置脆弱性,即使微小偏移也会显著降低记忆效果。
- 实验表明,将敏感数据移至上下文窗口更深处可有效抑制记忆提取和文本退化,为降低LLM记忆风险提供新思路。
📝 摘要(中文)
大型语言模型(LLM)存在记忆训练数据部分内容的问题,这带来了侵犯版权的风险。为了系统地研究这种风险,我们从头开始预训练了1B、3B和8B参数量的语言模型,使用了830亿token的数据,其中混合了网络规模的数据和公共领域的书籍,以模拟受版权保护的内容,并控制其频率,且长度至少是先前研究的十倍。由此,我们发现了偏移效应,其特征在于两个关键发现:(1)逐字记忆最容易被上下文窗口开头提取的短前缀触发,并且随着前缀长度的增加,记忆效果反而会反直觉地降低;(2)当前缀从上下文窗口的初始token开始偏移时,逐字回忆率会急剧下降。我们将其归因于位置脆弱性:模型过度依赖上下文窗口中最开始的token作为检索锚点,使其对微小的偏移都非常敏感。我们进一步观察到,当模型未能检索到记忆内容时,通常会产生退化的文本。利用这些发现,我们表明将敏感数据移到上下文窗口的更深处可以抑制可提取的记忆和退化。我们的结果表明,位置偏移是评估记忆风险的一个关键且先前被忽视的维度,因为先前的工作通过仅从训练序列的开头进行探测而隐式地假设了均匀性。
🔬 方法详解
问题定义:大型语言模型存在记忆训练数据并可能泄露版权信息的风险。现有研究主要关注从训练序列起始位置提取记忆内容,忽略了位置偏移对记忆效果的影响,可能低估了实际的记忆风险。因此,需要系统性地研究不同位置偏移下LLM的记忆行为,并找到降低记忆风险的方法。
核心思路:该研究的核心思路是揭示LLM的“位置脆弱性”,即模型对输入序列起始位置的token过度依赖,导致记忆效果对位置偏移非常敏感。通过控制训练数据中敏感信息的位置,观察模型在不同偏移下的记忆表现,从而理解位置偏移如何影响记忆风险。
技术框架:该研究通过预训练不同规模(1B/3B/8B)的语言模型来评估记忆风险。训练数据混合了网络规模数据和公共领域书籍,后者用于模拟受版权保护的内容。研究人员通过控制敏感数据在训练序列中的位置和频率,系统性地分析了位置偏移对模型记忆能力的影响。主要评估指标是模型能否逐字回忆起训练数据中的敏感信息,以及生成文本的质量(是否出现退化)。
关键创新:该研究最重要的创新点在于发现了LLM的“偏移效应”和“位置脆弱性”。以往研究通常假设模型对训练序列中的所有位置都同等对待,而该研究表明,模型对起始位置的token具有显著的偏好,导致记忆效果对位置偏移非常敏感。这一发现颠覆了以往对LLM记忆风险的认知。
关键设计:为了系统地研究位置偏移的影响,研究人员精心设计了训练数据,控制了敏感信息在训练序列中的位置和频率。他们使用了比以往研究更长的序列长度,并从不同的位置偏移处进行探测,以更全面地评估模型的记忆能力。此外,他们还分析了模型在无法回忆起敏感信息时生成的文本,发现常常出现退化现象,这为识别和缓解记忆风险提供了新的线索。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的记忆能力对位置偏移非常敏感,即使是微小的偏移也会导致记忆效果显著下降。研究发现,将敏感数据移至上下文窗口的更深处可以有效抑制可提取的记忆和文本退化。例如,通过偏移敏感数据的位置,可以显著降低模型逐字回忆起这些数据的概率。
🎯 应用场景
该研究成果可应用于评估和降低大型语言模型的记忆风险,例如在模型训练前对数据进行处理,将潜在的敏感信息移至序列的较深位置,从而降低模型记忆和泄露这些信息的可能性。此外,该研究也为设计更安全的LLM训练方法提供了新的思路。
📄 摘要(原文)
Large language models are known to memorize parts of their training data, posing risk of copyright violations. To systematically examine this risk, we pretrain language models (1B/3B/8B) from scratch on 83B tokens, mixing web-scale data with public domain books used to simulate copyrighted content at controlled frequencies at lengths at least ten times longer than prior work. We thereby identified the offset effect, a phenomenon characterized by two key findings: (1) verbatim memorization is most strongly triggered by short prefixes drawn from the beginning of the context window, with memorization decreasing counterintuitively as prefix length increases; and (2) a sharp decline in verbatim recall when prefix begins offset from the initial tokens of the context window. We attribute this to positional fragility: models rely disproportionately on the earliest tokens in their context window as retrieval anchors, making them sensitive to even slight shifts. We further observe that when the model fails to retrieve memorized content, it often produces degenerated text. Leveraging these findings, we show that shifting sensitive data deeper into the context window suppresses both extractable memorization and degeneration. Our results suggest that positional offset is a critical and previously overlooked axis for evaluating memorization risks, since prior work implicitly assumed uniformity by probing only from the beginning of training sequences.