ICED: Concept-level Machine Unlearning via Interpretable Concept Decomposition

作者: Shen Lin, Jing Lin, Junhao Dong, Piotr Koniusz, Li Xu

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-14 (更新: 2026-05-15)

💡 一句话要点

ICED：提出一种基于可解释概念分解的概念级机器遗忘方法，用于视觉-语言模型。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 视觉-语言模型 概念级遗忘 可解释性 多模态学习

📋 核心要点

现有视觉-语言模型的机器遗忘方法在图像级别操作，难以精确移除目标知识，易影响无关语义。
提出ICED框架，通过多模态大语言模型构建概念词汇表，并将视觉表示分解为可解释的概念组合。
实验表明，ICED能更全面地遗忘目标概念，更好地保留非目标知识，并保持模型效用。

📝 摘要（中文）

本文提出了一种用于视觉-语言模型（VLM）的可解释概念级遗忘框架。现有方法通常在图像或实例级别进行遗忘，难以精确移除目标知识，同时避免影响无关语义。这是因为单个图像通常包含多个纠缠的概念，包括需要遗忘的目标概念和应该保留的上下文信息。该框架利用多模态大型语言模型，从遗忘集中构建紧凑的任务特定概念词汇表。除了模态对齐，视觉表示被分解为语义概念的稀疏、非负组合，为细粒度的知识操作提供显式接口。基于这种分解，该方法将遗忘定义为概念级优化，选择性地抑制目标概念，同时保留实例内的非目标语义和全局跨模态知识。在领域内和领域外遗忘设置下的大量实验表明，该方法能够更全面地遗忘目标，更好地保留同一图像内的非目标知识，并保持与现有VLM遗忘方法相比具有竞争力的模型效用。

🔬 方法详解

问题定义：现有视觉-语言模型的机器遗忘方法主要在图像或实例级别进行，这导致了两个主要问题。首先，由于图像通常包含多个概念，直接删除图像会导致非目标概念的遗忘。其次，这种粗粒度的遗忘方式难以精确控制遗忘范围，容易影响模型的整体性能。因此，需要一种更细粒度的、概念级别的遗忘方法。

核心思路：ICED的核心思路是将视觉表示分解为可解释的语义概念组合，从而实现对特定概念的精确操作。通过构建一个任务特定的概念词汇表，并将图像表示分解为这些概念的稀疏组合，可以有选择性地抑制目标概念，同时保留其他相关信息。这种方法借鉴了解释性机器学习的思想，将遗忘过程转化为对模型内部表示的精细调整。

技术框架：ICED框架主要包含以下几个模块：1) 概念词汇表构建：利用多模态大型语言模型从遗忘集中提取任务相关的概念。2) 视觉表示分解：将视觉表示分解为概念词汇表中概念的稀疏、非负组合。这可以通过非负矩阵分解（NMF）等技术实现。3) 概念级遗忘：通过优化目标函数，选择性地抑制目标概念对应的权重，同时保留非目标概念的权重。4) 模型微调：在遗忘后，对模型进行微调，以恢复模型性能并保持跨模态知识。

关键创新：ICED的关键创新在于将机器遗忘问题转化为概念级别的优化问题。与传统的图像级别遗忘方法相比，ICED能够更精确地控制遗忘范围，避免过度遗忘。此外，通过可解释的概念分解，ICED能够提供对遗忘过程的更深入理解，并为未来的研究提供新的方向。

关键设计：在概念词汇表构建阶段，论文使用了多模态大型语言模型来提取与任务相关的概念。在视觉表示分解阶段，使用了非负矩阵分解（NMF）来确保分解结果的非负性和稀疏性。在概念级遗忘阶段，设计了一个损失函数，用于选择性地抑制目标概念的权重，同时保留非目标概念的权重。具体的损失函数形式和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ICED在领域内和领域外遗忘设置下均表现出色。与现有VLM遗忘方法相比，ICED能够更全面地遗忘目标概念，同时更好地保留同一图像内的非目标知识。在某些实验中，ICED在目标概念遗忘率上提升了10%以上，同时保持了与基线方法相当的模型效用。

🎯 应用场景

ICED方法在多个领域具有潜在应用价值。例如，在自动驾驶领域，可以用于遗忘特定类型的交通标志或行人，以提高模型的安全性和鲁棒性。在医疗图像分析领域，可以用于移除患者隐私信息，同时保留疾病诊断所需的关键特征。此外，该方法还可以应用于内容审查、版权保护等领域，实现对敏感信息的精确控制。

📄 摘要（原文）

Machine unlearning in Vision-Language Models (VLMs) is typically performed at the image or instance level, making it difficult to precisely remove target knowledge without affecting unrelated semantics. This issue is especially pronounced since a single image often contains multiple entangled concepts, including both target concepts to be forgotten and contextual information that should be preserved. In this paper, we propose an interpretable concept-level unlearning framework for VLMs, which constructs a compact task-specific concept vocabulary from the forgetting set using a multimodal large language model. In addition to modality alignment, visual representations are decomposed into sparse, nonnegative combinations of semantic concepts, providing an explicit interface for fine-grained knowledge manipulation. Based on this decomposition, our method formulates unlearning as concept-level optimization, where target concepts are selectively suppressed while intra-instance non-target semantics and global cross-modal knowledge are preserved. Extensive experiments across both in-domain and out-of-domain forgetting settings demonstrate that our method enables more comprehensive target forgetting, better preserves non-target knowledge within the same image, and maintains competitive model utility compared with existing VLM unlearning methods.

ICED: Concept-level Machine Unlearning via Interpretable Concept Decomposition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理