Exploring Approaches for Detecting Memorization of Recommender System Data in Large Language Models

📄 arXiv: 2601.02002v1 📥 PDF

作者: Antonio Colacicco, Vito Guida, Dario Di Palma, Fedelucio Narducci, Tommaso Di Noia

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-01-05


💡 一句话要点

探索大语言模型中推荐系统数据记忆的检测方法,并评估自动化提示工程的潜力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据记忆 推荐系统 提示工程 数据泄露

📋 核心要点

  1. 现有方法依赖手动提示工程提取LLM记忆的推荐系统数据,效率低且缺乏系统性。
  2. 论文探索越狱提示、无监督潜在知识发现和自动提示工程三种方法,以提升LLM记忆检测。
  3. 实验表明自动提示工程在提取项目级信息方面最具潜力,但数值交互恢复仍具挑战。

📝 摘要(中文)

大型语言模型(LLM)因其强大的自然语言理解和生成能力而被越来越多地应用于推荐场景。然而,它们在未公开内容的庞大语料库上进行训练,引发了数据泄露的担忧。最近的研究表明,LLaMA和OpenAI模型家族都记忆了MovieLens-1M数据集,但迄今为止,提取这些记忆数据完全依赖于手动提示工程。本文提出了三个主要问题:是否可以增强手动提示?是否可以通过手动提示之外的方法检测LLM记忆?以及数据泄露的检测是否可以自动化?为了解决这些问题,我们评估了三种方法:(i)越狱提示工程;(ii)无监督潜在知识发现,通过对比一致性搜索(CCS)和聚类范数探测内部激活;(iii)自动提示工程(APE),它将提示发现构建为迭代优化候选指令的元学习过程。在MovieLens-1M上使用LLaMA模型的实验表明,越狱提示并没有提高记忆项目的检索,并且仍然不一致;CCS能够可靠地区分真实电影标题和虚构电影标题,但在数值用户和评分数据上失败;APE以中等程度的成功检索项目级信息,但难以恢复数值交互。这些发现表明,自动优化提示是提取记忆样本最有希望的策略。

🔬 方法详解

问题定义:论文旨在解决如何有效检测大型语言模型(LLM)是否记忆了推荐系统数据集(如MovieLens-1M)的问题。现有方法主要依赖于手动设计的提示,这种方法耗时、低效,且难以覆盖所有可能的记忆数据。此外,手动提示的有效性高度依赖于设计者的经验,缺乏通用性和可重复性。

核心思路:论文的核心思路是探索和评估多种自动化的方法,以更高效、更系统地检测LLM中的数据记忆。具体而言,论文比较了越狱提示工程、无监督潜在知识发现(通过对比一致性搜索CCS和聚类范数)以及自动提示工程(APE)三种方法,旨在找到一种能够自动生成有效提示并准确识别记忆数据的方法。

技术框架:论文的技术框架主要包括三个独立的模块,分别对应于三种不同的检测方法: 1. 越狱提示工程:尝试通过设计特定的提示,绕过LLM的安全机制,从而诱导其泄露记忆数据。 2. 无监督潜在知识发现:利用对比一致性搜索(CCS)和聚类范数等技术,分析LLM内部的激活状态,以识别与记忆数据相关的模式。 3. 自动提示工程(APE):将提示发现问题建模为一个元学习过程,通过迭代优化候选提示,自动生成能够有效提取记忆数据的提示。

关键创新:论文的关键创新在于探索了自动提示工程(APE)在检测LLM数据记忆方面的潜力。与传统的手动提示相比,APE能够自动生成和优化提示,从而更高效、更系统地发现LLM中隐藏的记忆数据。此外,论文还首次将无监督潜在知识发现方法(如CCS和聚类范数)应用于LLM记忆检测,为该领域的研究提供了新的思路。

关键设计: * 自动提示工程(APE):APE框架将提示生成视为一个元学习问题,使用强化学习或进化算法等方法,迭代优化候选提示。关键在于设计合适的奖励函数,以鼓励生成能够有效提取记忆数据的提示。 * 对比一致性搜索(CCS):CCS通过比较真实数据和生成数据的内部激活状态,识别与记忆数据相关的神经元。关键在于选择合适的对比样本和相似度度量方法。 * 聚类范数:聚类范数通过分析LLM内部激活状态的聚类结构,识别与特定数据相关的神经元。关键在于选择合适的聚类算法和范数度量方法。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,越狱提示工程效果不佳且不稳定;对比一致性搜索(CCS)在区分真实电影标题和虚构电影标题方面表现良好,但在数值数据上失效;自动提示工程(APE)在检索项目级信息方面取得了一定的成功,但难以恢复数值交互。这些结果表明,自动优化提示是提取记忆样本最有希望的策略。

🎯 应用场景

该研究成果可应用于评估和缓解大型语言模型的数据泄露风险,尤其是在推荐系统等涉及用户隐私数据的应用场景中。通过自动化检测LLM的数据记忆情况,可以帮助开发者更好地了解模型的安全边界,并采取相应的措施来保护用户数据,例如通过差分隐私训练或数据脱敏等方法。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly applied in recommendation scenarios due to their strong natural language understanding and generation capabilities. However, they are trained on vast corpora whose contents are not publicly disclosed, raising concerns about data leakage. Recent work has shown that the MovieLens-1M dataset is memorized by both the LLaMA and OpenAI model families, but the extraction of such memorized data has so far relied exclusively on manual prompt engineering. In this paper, we pose three main questions: Is it possible to enhance manual prompting? Can LLM memorization be detected through methods beyond manual prompting? And can the detection of data leakage be automated? To address these questions, we evaluate three approaches: (i) jailbreak prompt engineering; (ii) unsupervised latent knowledge discovery, probing internal activations via Contrast-Consistent Search (CCS) and Cluster-Norm; and (iii) Automatic Prompt Engineering (APE), which frames prompt discovery as a meta-learning process that iteratively refines candidate instructions. Experiments on MovieLens-1M using LLaMA models show that jailbreak prompting does not improve the retrieval of memorized items and remains inconsistent; CCS reliably distinguishes genuine from fabricated movie titles but fails on numerical user and rating data; and APE retrieves item-level information with moderate success yet struggles to recover numerical interactions. These findings suggest that automatically optimizing prompts is the most promising strategy for extracting memorized samples.