Beyond Frequency: The Role of Redundancy in Large Language Model Memorization

📄 arXiv: 2506.12321v2 📥 PDF

作者: Jie Zhang, Qinghua Zhao, Chi-ho Lin, Zhongfeng Kang, Lei Li

分类: cs.LG, cs.AI

发布日期: 2025-06-14 (更新: 2025-08-29)

备注: 8 figures


💡 一句话要点

揭示冗余在大型语言模型记忆中的作用,提出基于冗余的数据预处理方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 记忆 冗余 隐私 公平性 反事实分析 数据预处理

📋 核心要点

  1. 大型语言模型的记忆能力带来了隐私和公平性风险,现有研究未能充分解释记忆现象的根本原因。
  2. 该研究通过反事实分析,揭示了冗余在语言模型记忆中的关键作用,并量化了冗余度与记忆脆弱性之间的关系。
  3. 实验表明,低冗余样本更容易被模型记忆,且对扰动更敏感,为基于冗余的数据预处理提供了理论依据。

📝 摘要(中文)

大型语言模型中的记忆现象对隐私和公平性构成严重风险。虽然之前的研究建立了记忆与token频率和重复模式等因素之间的相关性,但本文揭示了不同的响应模式:频率的增加对记忆样本的影响很小(例如0.09),但对非记忆样本的影响很大(例如0.25),并且在不同的模型规模上观察到一致性。通过对样本前缀进行扰动并通过token位置变化量化扰动强度进行反事实分析,证明冗余与记忆模式相关。研究发现:约79%的记忆样本是低冗余的,这些低冗余样本的脆弱性是高冗余样本的两倍,因此,记忆样本在扰动下下降0.6,而非记忆样本仅下降0.01,表明更冗余的内容变得更易记忆且更脆弱。这些发现表明,可以采用基于冗余的数据预处理方法,从而降低隐私风险并减轻偏差,以确保模型部署的公平性。

🔬 方法详解

问题定义:大型语言模型在训练过程中会记忆训练数据,这可能导致隐私泄露和模型偏见。现有方法主要关注token频率和重复模式与记忆之间的关系,但未能充分解释为什么某些样本更容易被记忆,以及如何有效降低模型的记忆能力。现有方法缺乏对数据冗余性的深入分析,以及冗余性对模型记忆行为的影响。

核心思路:该研究的核心思路是探究数据冗余性在大型语言模型记忆过程中的作用。通过反事实分析,即对输入样本进行扰动并观察模型输出的变化,来量化冗余度与记忆之间的关系。研究假设,低冗余的样本更容易被模型记忆,并且对输入扰动更敏感。

技术框架:该研究主要包含以下几个阶段:1) 定义记忆样本和非记忆样本;2) 通过改变token频率来观察对记忆和非记忆样本的影响;3) 通过反事实分析,对样本前缀进行扰动,并使用token位置变化来量化扰动强度;4) 分析冗余度与记忆模式之间的关系,包括记忆样本中低冗余样本的比例,以及不同冗余度样本对扰动的敏感性。

关键创新:该研究的关键创新在于:1) 首次将数据冗余性与大型语言模型的记忆现象联系起来,揭示了冗余在记忆过程中的关键作用;2) 提出了基于反事实分析的扰动方法,用于量化冗余度与记忆之间的关系;3) 发现了低冗余样本更容易被记忆且对扰动更敏感的现象,为降低模型记忆能力提供了新的思路。

关键设计:研究中使用了token位置变化来量化扰动强度,通过计算扰动前后token位置的差异来评估扰动对样本的影响。此外,研究还分析了不同冗余度样本在扰动下的输出变化,通过比较记忆样本和非记忆样本的下降幅度来评估冗余度对记忆脆弱性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,约79%的记忆样本是低冗余的,这些低冗余样本的脆弱性是高冗余样本的两倍。在扰动下,记忆样本下降0.6,而非记忆样本仅下降0.01,表明更冗余的内容变得更易记忆且更脆弱。这些数据有力地支持了冗余在大型语言模型记忆中的关键作用。

🎯 应用场景

该研究成果可应用于数据预处理阶段,通过降低训练数据的冗余度,从而降低大型语言模型的记忆能力,减少隐私泄露风险,并减轻模型偏见。此外,该研究还可以用于评估不同数据集的隐私风险,指导数据集的构建和选择。未来,可以进一步研究如何利用冗余信息来提高模型的泛化能力和鲁棒性。

📄 摘要(原文)

Memorization in large language models poses critical risks for privacy and fairness as these systems scale to billions of parameters. While previous studies established correlations between memorization and factors like token frequency and repetition patterns, we revealed distinct response patterns: frequency increases minimally impact memorized samples (e.g. 0.09) while substantially affecting non-memorized samples (e.g., 0.25), with consistency observed across model scales. Through counterfactual analysis by perturbing sample prefixes and quantifying perturbation strength through token positional changes, we demonstrate that redundancy correlates with memorization patterns. Our findings establish that: about 79% of memorized samples are low-redundancy, these low-redundancy samples exhibit 2-fold higher vulnerability than high-redundancy ones, and consequently memorized samples drop by 0.6 under perturbation while non-memorized samples drop by only 0.01, indicating that more redundant content becomes both more memorable and more fragile. These findings suggest potential redundancy-guided approaches for data preprocessing, thereby reducing privacy risks and mitigating bias to ensure fairness in model deployments.