Learning to Erase Private Knowledge from Multi-Documents for Retrieval-Augmented Large Language Models

作者: Yujing Wang, Hainan Zhang, Liang Pang, Yongxin Tong, Binghui Guo, Hongwei Zheng, Zhiming Zheng

分类: cs.CL

发布日期: 2025-04-14

💡 一句话要点

提出Eraser4RAG，用于检索增强大语言模型中多文档的隐私知识擦除。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 隐私擦除 多文档推理 知识图谱 强化学习

📋 核心要点

RAG面临隐私泄露风险，因为检索到的文档可能包含敏感信息，需要有效擦除私有知识。
Eraser4RAG构建全局知识图以识别潜在知识，并使用Flan-T5重写文档，排除私有三元组。
实验表明，Eraser4RAG在擦除性能上优于GPT-4o，能有效移除用户定义的私有知识。

📝 摘要（中文）

检索增强生成(RAG)是一种将大型语言模型应用于专有领域的有前景的技术。然而，检索到的文档可能包含敏感知识，从而在生成结果中构成隐私泄露的风险。因此，有效擦除检索文档中的私有信息是RAG的关键挑战。与传统的文本匿名化不同，RAG应考虑：（1）固有的多文档推理可能面临去匿名化攻击；（2）私有知识因场景而异，因此应允许用户自定义要擦除的信息；（3）为生成任务保留足够的公开可用知识。本文介绍了RAG的隐私擦除任务，并提出了Eraser4RAG，一种私有知识擦除器，它可以有效地从文档中删除用户定义的私有知识，同时为生成保留足够的公共知识。具体来说，我们首先构建一个全局知识图，以识别跨文档的潜在知识，旨在防御去匿名化攻击。然后，我们将其随机拆分为私有和公共子图，并微调Flan-T5以重写检索到的文档，排除私有三元组。最后，PPO算法优化重写模型，以最大限度地减少私有三元组并最大限度地保留公共三元组。在四个QA数据集上的实验表明，Eraser4RAG实现了优于GPT-4o的擦除性能。

🔬 方法详解

问题定义：论文旨在解决检索增强生成（RAG）中，从检索到的多文档中擦除私有知识的问题。现有方法，如传统的文本匿名化，无法有效应对RAG中多文档推理带来的去匿名化攻击，也难以适应用户自定义的隐私擦除需求，同时还需要保证擦除后保留足够的公开知识用于生成任务。

核心思路：论文的核心思路是构建一个全局知识图，用于识别跨文档的潜在知识，从而防御去匿名化攻击。然后，通过将知识图划分为私有和公共子图，并微调语言模型来重写文档，以排除私有三元组，同时保留公共三元组。这种方法允许用户自定义要擦除的私有知识，并确保擦除后仍有足够的公开知识用于生成。

技术框架：Eraser4RAG的整体框架包含以下几个主要步骤：1) 构建全局知识图：从检索到的多文档中提取知识三元组，构建全局知识图。2) 划分私有和公共子图：根据用户定义的隐私需求，将知识图随机划分为私有和公共子图。3) 微调Flan-T5：使用划分后的子图，微调Flan-T5模型，使其能够重写检索到的文档，排除私有三元组。4) PPO优化：使用PPO算法优化重写模型，以最小化私有三元组的保留，并最大化公共三元组的保留。

关键创新：该论文的关键创新在于提出了针对RAG的隐私擦除任务，并设计了Eraser4RAG框架。与传统的文本匿名化方法相比，Eraser4RAG考虑了多文档推理带来的去匿名化攻击，并允许用户自定义要擦除的私有知识。此外，Eraser4RAG还通过构建全局知识图和使用PPO算法优化重写模型，提高了隐私擦除的性能和知识保留能力。

关键设计：在构建全局知识图时，使用了标准的三元组抽取方法。在划分私有和公共子图时，采用了随机划分策略。在微调Flan-T5模型时，使用了交叉熵损失函数。在使用PPO算法优化重写模型时，奖励函数的设计至关重要，需要平衡私有三元组的擦除和公共三元组的保留。具体的参数设置和网络结构细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Eraser4RAG在四个QA数据集上实现了优于GPT-4o的擦除性能。具体来说，Eraser4RAG能够更有效地删除用户定义的私有知识，同时保留更多的公共知识用于生成任务。这些结果验证了Eraser4RAG在RAG隐私擦除任务中的有效性。

🎯 应用场景

该研究成果可应用于各种需要保护用户隐私的检索增强生成场景，例如医疗问答、金融咨询、法律咨询等。通过Eraser4RAG，可以有效地从检索到的文档中删除敏感信息，从而降低隐私泄露的风险，并促进RAG技术在隐私敏感领域的应用。未来，该技术还可以扩展到其他类型的隐私保护任务，例如差分隐私和联邦学习。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) is a promising technique for applying LLMs to proprietary domains. However, retrieved documents may contain sensitive knowledge, posing risks of privacy leakage in generative results. Thus, effectively erasing private information from retrieved documents is a key challenge for RAG. Unlike traditional text anonymization, RAG should consider: (1) the inherent multi-document reasoning may face de-anonymization attacks; (2) private knowledge varies by scenarios, so users should be allowed to customize which information to erase; (3) preserving sufficient publicly available knowledge for generation tasks. This paper introduces the privacy erasure task for RAG and proposes Eraser4RAG, a private knowledge eraser which effectively removes user-defined private knowledge from documents while preserving sufficient public knowledge for generation. Specifically, we first construct a global knowledge graph to identify potential knowledge across documents, aiming to defend against de-anonymization attacks. Then we randomly split it into private and public sub-graphs, and fine-tune Flan-T5 to rewrite the retrieved documents excluding private triples. Finally, PPO algorithm optimizes the rewriting model to minimize private triples and maximize public triples retention. Experiments on four QA datasets demonstrate that Eraser4RAG achieves superior erase performance than GPT-4o.

Learning to Erase Private Knowledge from Multi-Documents for Retrieval-Augmented Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理