ICED: Concept-level Machine Unlearning via Interpretable Concept Decomposition

📄 arXiv: 2605.14309v2 📥 PDF

作者: Shen Lin, Jing Lin, Junhao Dong, Piotr Koniusz, Li Xu

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-14 (更新: 2026-05-15)


💡 一句话要点

ICED:提出一种基于可解释概念分解的概念级机器遗忘方法,用于视觉-语言模型。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 视觉-语言模型 概念级遗忘 可解释性 多模态学习

📋 核心要点

  1. 现有视觉-语言模型的机器遗忘方法在图像级别操作,难以精确移除目标知识,易影响无关语义。
  2. 提出ICED框架,通过多模态大语言模型构建概念词汇表,并将视觉表示分解为可解释的概念组合。
  3. 实验表明,ICED能更全面地遗忘目标概念,更好地保留非目标知识,并保持模型效用。

📝 摘要(中文)

本文提出了一种用于视觉-语言模型(VLM)的可解释概念级遗忘框架。现有方法通常在图像或实例级别进行遗忘,难以精确移除目标知识,同时避免影响无关语义。这是因为单个图像通常包含多个纠缠的概念,包括需要遗忘的目标概念和应该保留的上下文信息。该框架利用多模态大型语言模型,从遗忘集中构建紧凑的任务特定概念词汇表。除了模态对齐,视觉表示被分解为语义概念的稀疏、非负组合,为细粒度的知识操作提供显式接口。基于这种分解,该方法将遗忘定义为概念级优化,选择性地抑制目标概念,同时保留实例内的非目标语义和全局跨模态知识。在领域内和领域外遗忘设置下的大量实验表明,该方法能够更全面地遗忘目标,更好地保留同一图像内的非目标知识,并保持与现有VLM遗忘方法相比具有竞争力的模型效用。

🔬 方法详解

问题定义:现有视觉-语言模型的机器遗忘方法主要在图像或实例级别进行,这导致了两个主要问题。首先,由于图像通常包含多个概念,直接删除图像会导致非目标概念的遗忘。其次,这种粗粒度的遗忘方式难以精确控制遗忘范围,容易影响模型的整体性能。因此,需要一种更细粒度的、概念级别的遗忘方法。

核心思路:ICED的核心思路是将视觉表示分解为可解释的语义概念组合,从而实现对特定概念的精确操作。通过构建一个任务特定的概念词汇表,并将图像表示分解为这些概念的稀疏组合,可以有选择性地抑制目标概念,同时保留其他相关信息。这种方法借鉴了解释性机器学习的思想,将遗忘过程转化为对模型内部表示的精细调整。

技术框架:ICED框架主要包含以下几个模块:1) 概念词汇表构建:利用多模态大型语言模型从遗忘集中提取任务相关的概念。2) 视觉表示分解:将视觉表示分解为概念词汇表中概念的稀疏、非负组合。这可以通过非负矩阵分解(NMF)等技术实现。3) 概念级遗忘:通过优化目标函数,选择性地抑制目标概念对应的权重,同时保留非目标概念的权重。4) 模型微调:在遗忘后,对模型进行微调,以恢复模型性能并保持跨模态知识。

关键创新:ICED的关键创新在于将机器遗忘问题转化为概念级别的优化问题。与传统的图像级别遗忘方法相比,ICED能够更精确地控制遗忘范围,避免过度遗忘。此外,通过可解释的概念分解,ICED能够提供对遗忘过程的更深入理解,并为未来的研究提供新的方向。

关键设计:在概念词汇表构建阶段,论文使用了多模态大型语言模型来提取与任务相关的概念。在视觉表示分解阶段,使用了非负矩阵分解(NMF)来确保分解结果的非负性和稀疏性。在概念级遗忘阶段,设计了一个损失函数,用于选择性地抑制目标概念的权重,同时保留非目标概念的权重。具体的损失函数形式和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ICED在领域内和领域外遗忘设置下均表现出色。与现有VLM遗忘方法相比,ICED能够更全面地遗忘目标概念,同时更好地保留同一图像内的非目标知识。在某些实验中,ICED在目标概念遗忘率上提升了10%以上,同时保持了与基线方法相当的模型效用。

🎯 应用场景

ICED方法在多个领域具有潜在应用价值。例如,在自动驾驶领域,可以用于遗忘特定类型的交通标志或行人,以提高模型的安全性和鲁棒性。在医疗图像分析领域,可以用于移除患者隐私信息,同时保留疾病诊断所需的关键特征。此外,该方法还可以应用于内容审查、版权保护等领域,实现对敏感信息的精确控制。

📄 摘要(原文)

Machine unlearning in Vision-Language Models (VLMs) is typically performed at the image or instance level, making it difficult to precisely remove target knowledge without affecting unrelated semantics. This issue is especially pronounced since a single image often contains multiple entangled concepts, including both target concepts to be forgotten and contextual information that should be preserved. In this paper, we propose an interpretable concept-level unlearning framework for VLMs, which constructs a compact task-specific concept vocabulary from the forgetting set using a multimodal large language model. In addition to modality alignment, visual representations are decomposed into sparse, nonnegative combinations of semantic concepts, providing an explicit interface for fine-grained knowledge manipulation. Based on this decomposition, our method formulates unlearning as concept-level optimization, where target concepts are selectively suppressed while intra-instance non-target semantics and global cross-modal knowledge are preserved. Extensive experiments across both in-domain and out-of-domain forgetting settings demonstrate that our method enables more comprehensive target forgetting, better preserves non-target knowledge within the same image, and maintains competitive model utility compared with existing VLM unlearning methods.