ICED: Concept-level Machine Unlearning via Interpretable Concept Decomposition

📄 arXiv: 2605.14309v1 📥 PDF

作者: Shen Lin, Jing Lin, Junhao Dong, Piotr Koniusz, Li Xu

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-14


💡 一句话要点

提出概念级机器遗忘框架以解决视觉语言模型知识删除问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 视觉语言模型 多模态学习 知识操作 概念分解 优化算法 语义保留

📋 核心要点

  1. 现有的机器遗忘方法在图像或实例级别进行,难以精确删除目标知识而不影响其他语义。
  2. 本文提出了一种可解释的概念级遗忘框架,通过多模态大语言模型构建任务特定的概念词汇,进行细粒度知识操作。
  3. 实验结果显示,该方法在目标遗忘的全面性和非目标知识的保留方面优于现有的视觉语言模型遗忘方法。

📝 摘要(中文)

在视觉语言模型中,机器遗忘通常在图像或实例级别进行,这使得精确删除目标知识而不影响无关语义变得困难。本文提出了一种可解释的概念级遗忘框架,通过多模态大语言模型构建紧凑的任务特定概念词汇。该方法将视觉表示分解为稀疏的非负语义概念组合,提供了细粒度知识操作的明确接口。通过这种分解,本文将遗忘形式化为概念级优化,选择性抑制目标概念,同时保留同一图像中的非目标语义和全局跨模态知识。大量实验表明,该方法在目标遗忘的全面性、非目标知识的保留以及模型效用方面优于现有方法。

🔬 方法详解

问题定义:本文旨在解决视觉语言模型中机器遗忘的挑战,现有方法在删除目标知识时往往会影响到无关的语义信息,导致遗忘效果不理想。

核心思路:提出了一种可解释的概念级遗忘框架,通过构建任务特定的概念词汇,实现对目标概念的选择性抑制,同时保留其他重要信息。

技术框架:整体框架包括三个主要模块:1) 概念词汇构建,利用多模态大语言模型从遗忘集中提取概念;2) 视觉表示分解,将图像表示转化为稀疏的非负概念组合;3) 概念级优化,通过优化算法实现目标概念的抑制。

关键创新:最重要的创新在于将遗忘问题转化为概念级的优化问题,提供了一个明确的接口用于细粒度的知识操作,与现有方法相比,能够更有效地保留非目标知识。

关键设计:在技术细节上,采用了稀疏编码技术来实现视觉表示的分解,设计了特定的损失函数以平衡目标概念的抑制与非目标知识的保留。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的方法在目标遗忘的全面性上显著优于现有方法,能够更好地保留同一图像中的非目标知识。在多个实验设置中,模型的效用保持竞争力,展示了在目标概念抑制方面的有效性。

🎯 应用场景

该研究的潜在应用领域包括图像处理、自然语言处理和人机交互等领域,能够为需要动态更新知识的视觉语言模型提供有效的解决方案,提升模型的灵活性和适应性,未来可能对智能助手和自动内容生成等应用产生深远影响。

📄 摘要(原文)

Machine unlearning in Vision-Language Models (VLMs) is typically performed at the image or instance level, making it difficult to precisely remove target knowledge without affecting unrelated semantics. This issue is especially pronounced since a single image often contains multiple entangled concepts, including both target concepts to be forgotten and contextual information that should be preserved. In this paper, we propose an interpretable concept-level unlearning framework for VLMs, which constructs a compact task-specific concept vocabulary from the forgetting set using a multimodal large language model. In addition to modality alignment, visual representations are decomposed into sparse, nonnegative combinations of semantic concepts, providing an explicit interface for fine-grained knowledge manipulation. Based on this decomposition, our method formulates unlearning as concept-level optimization, where target concepts are selectively suppressed while intra-instance non-target semantics and global cross-modal knowledge are preserved. Extensive experiments across both in-domain and out-of-domain forgetting settings demonstrate that our method enables more comprehensive target forgetting, better preserves non-target knowledge within the same image, and maintains competitive model utility compared with existing VLM unlearning methods.