Holistic Audit Dataset Generation for LLM Unlearning via Knowledge Graph Traversal and Redundancy Removal

📄 arXiv: 2502.18810v1 📥 PDF

作者: Weipeng Jiang, Juan Zhai, Shiqing Ma, Ziyan Lei, Xiaofei Xie, Yige Wang, Chao Shen

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-02-26

备注: 11 pages, 4 figures


💡 一句话要点

HANKER:通过知识图谱遍历和冗余消除,为LLM不可学习性生成全面的审计数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 机器不可学习 知识图谱 审计数据集生成 冗余消除

📋 核心要点

  1. 现有LLM不可学习性评估基准规模有限,无法全面覆盖知识,阻碍了对模型遗忘能力的准确评估。
  2. HANKER利用知识图谱进行细粒度覆盖,并消除冗余知识,从而自动生成更全面、更准确的审计数据集。
  3. 实验表明,HANKER生成的审计数据集能够识别更多知识记忆实例,并揭示知识冗余对评估指标的显著影响。

📝 摘要(中文)

近年来,大型语言模型(LLM)面临越来越多的需求,需要通过机器不可学习(unlearning)来选择性地移除敏感信息、保护隐私并遵守版权法规。评估不可学习性的有效性至关重要,但现有的基准测试在规模和全面性方面受到限制,通常只包含几百个测试用例。本文确定了生成全面审计数据集的两个关键挑战:确保审计充分性和处理忘记数据集与保留数据集之间的知识冗余。为了应对这些挑战,我们提出了HANKER,一个自动化的框架,利用知识图谱来实现细粒度的覆盖并消除冗余知识,从而生成全面的审计数据集。将HANKER应用于流行的MUSE基准测试,我们成功地为新闻和书籍数据集分别生成了超过69,000和111,000个审计案例,识别出先前基准测试未能检测到的数千个知识记忆实例。我们的实证分析揭示了知识冗余如何显著扭曲不可学习性有效性指标,冗余实例人为地夸大了观察到的记忆测量ROUGE(从19.7%到26.1%)和Entailment Scores(从32.4%到35.2%),突出了系统去重对于准确评估的必要性。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)不可学习性评估基准数据集规模小,覆盖范围有限,无法充分评估模型是否真正遗忘了特定知识。此外,忘记数据集和保留数据集之间存在知识冗余,导致评估结果偏差,无法准确反映不可学习性的效果。

核心思路:HANKER的核心思路是利用知识图谱来系统地生成审计数据集,确保覆盖更广泛的知识范围,并消除忘记数据集和保留数据集之间的冗余。通过知识图谱的遍历,可以发现更多与目标知识相关的实例,从而更全面地评估模型的遗忘能力。

技术框架:HANKER框架主要包含以下几个阶段:1) 知识图谱构建:从现有知识库(如Wikidata)构建知识图谱。2) 审计案例生成:通过遍历知识图谱,生成与目标知识相关的审计案例,包括正例(模型应该忘记的知识)和负例(模型应该保留的知识)。3) 冗余消除:使用文本相似度算法(如ROUGE)检测并消除审计案例中的冗余知识,确保评估的准确性。4) 数据集构建:将生成的审计案例整理成数据集,用于评估LLM的不可学习性。

关键创新:HANKER的关键创新在于利用知识图谱进行细粒度的审计案例生成和冗余消除。与传统的随机抽样方法相比,HANKER能够更全面地覆盖知识范围,并消除冗余知识带来的评估偏差。

关键设计:HANKER的关键设计包括:1) 知识图谱遍历策略:设计有效的知识图谱遍历策略,以发现更多与目标知识相关的实例。2) 冗余消除算法:选择合适的文本相似度算法,并设置合理的阈值,以准确检测和消除冗余知识。3) 审计案例生成规则:定义清晰的审计案例生成规则,确保生成的案例能够有效评估模型的遗忘能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HANKER能够生成比现有MUSE基准更大规模、更全面的审计数据集。在MUSE数据集上,HANKER为News和Books数据集分别生成了超过69,000和111,000个审计案例,并识别出数千个先前基准测试未能检测到的知识记忆实例。实验还发现,知识冗余会显著夸大ROUGE和Entailment Scores等评估指标,凸显了HANKER进行系统去重的必要性。

🎯 应用场景

HANKER可用于评估各种LLM的不可学习性,帮助开发者改进模型,使其能够更好地保护用户隐私和遵守版权法规。此外,HANKER还可以用于生成高质量的不可学习性评估基准,促进该领域的研究进展。该研究对于提升LLM的安全性和可靠性具有重要意义。

📄 摘要(原文)

In recent years, Large Language Models (LLMs) have faced increasing demands to selectively remove sensitive information, protect privacy, and comply with copyright regulations through unlearning, by Machine Unlearning. While evaluating unlearning effectiveness is crucial, existing benchmarks are limited in scale and comprehensiveness, typically containing only a few hundred test cases. We identify two critical challenges in generating holistic audit datasets: ensuring audit adequacy and handling knowledge redundancy between forget and retain dataset. To address these challenges, we propose HANKER, an automated framework for holistic audit dataset generation leveraging knowledge graphs to achieve fine-grained coverage and eliminate redundant knowledge. Applying HANKER to the popular MUSE benchmark, we successfully generated over 69,000 and 111,000 audit cases for the News and Books datasets respectively, identifying thousands of knowledge memorization instances that the previous benchmark failed to detect. Our empirical analysis uncovers how knowledge redundancy significantly skews unlearning effectiveness metrics, with redundant instances artificially inflating the observed memorization measurements ROUGE from 19.7% to 26.1% and Entailment Scores from 32.4% to 35.2%, highlighting the necessity of systematic deduplication for accurate assessment.