Which Concepts to Forget and How to Refuse? Decomposing Concepts for Continual Unlearning in Large Vision-Language Models
作者: Hyundong Jin, Dongyoon Han, Eunwoo Kim
分类: cs.CV
发布日期: 2026-03-23
备注: Accepted to CVPR 2026
💡 一句话要点
提出概念分解的持续遗忘框架,解决视觉-语言模型中不适当拒绝问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 选择性遗忘 视觉-语言模型 概念分解 拒绝学习
📋 核心要点
- 现有持续遗忘方法在视觉-语言模型中产生虚假关联,导致不适当的拒绝行为,难以精确识别拒绝目标。
- 论文提出一种基于概念分解的持续遗忘框架,通过细粒度视觉和文本概念描述来引导拒绝行为。
- 实验结果表明,该框架能生成基于概念的拒绝响应,并在遗忘序列中保持通用性,优于现有方法。
📝 摘要(中文)
持续遗忘面临的挑战是,如何使大型视觉-语言模型能够选择性地拒绝特定的图像-指令对,以响应连续的删除请求,同时保持其通用性。然而,连续的遗忘更新会扭曲共享表示,在视觉-语言对和拒绝行为之间产生虚假关联,阻碍对拒绝目标的精确识别,导致不适当的拒绝。为了解决这个问题,我们提出了一个新的持续遗忘框架,该框架将拒绝行为建立在从删除目标分解出的视觉和文本概念的细粒度描述之上。我们首先通过概念调节器识别哪些视觉-语言概念组合表征每个遗忘类别,然后通过混合拒绝专家(称为拒绝器)来确定如何生成适当的拒绝响应,每个拒绝器专门用于概念对齐的拒绝生成。为了跨连续任务生成概念特定的拒绝响应,我们引入了一种多模态、概念驱动的路由方案,该方案重用具有相似概念的任务的拒绝器,并调整未充分利用的拒绝器以适应新概念。在视觉-语言基准上的大量实验表明,所提出的框架通过生成基于概念的拒绝响应并在整个遗忘序列中保持通用性,优于现有方法。
🔬 方法详解
问题定义:论文旨在解决大型视觉-语言模型在持续学习场景下的选择性遗忘问题,即如何让模型在接收到连续的删除请求后,能够精确地拒绝特定的图像-指令对,同时保持其通用能力。现有方法的痛点在于,连续的遗忘更新会扭曲模型的共享表示,导致模型在视觉-语言对和拒绝行为之间产生虚假关联,从而难以准确识别需要拒绝的目标,最终导致不适当的拒绝行为。
核心思路:论文的核心思路是将拒绝行为与细粒度的视觉和文本概念联系起来。通过将删除目标分解为更小的概念单元,模型可以学习到哪些概念组合与特定的遗忘类别相关联,从而更准确地判断何时应该拒绝。这种基于概念的拒绝方法可以减少虚假关联,提高拒绝的精确性。
技术框架:该框架主要包含三个模块:概念调节器(Concept Modulator)、拒绝专家混合(Mixture of Refusal Experts,即Refusers)和概念驱动的路由方案(Concept-driven Routing Scheme)。概念调节器负责识别哪些视觉-语言概念组合表征每个遗忘类别。拒绝专家混合由多个拒绝器组成,每个拒绝器专门用于生成概念对齐的拒绝响应。概念驱动的路由方案负责在不同的任务之间重用拒绝器,并根据需要调整未充分利用的拒绝器以适应新的概念。
关键创新:最重要的技术创新点在于将拒绝行为与细粒度的概念联系起来,并使用概念调节器和拒绝专家混合来生成概念特定的拒绝响应。与现有方法相比,该方法能够更精确地识别需要拒绝的目标,并生成更合理的拒绝响应。此外,概念驱动的路由方案能够有效地重用和调整拒绝器,从而提高模型的学习效率和泛化能力。
关键设计:概念调节器的具体实现方式未知,但其目标是学习概念与遗忘类别之间的映射关系。拒绝专家混合中的每个拒绝器可能是一个小型神经网络,其输入是视觉和文本特征,输出是拒绝响应。概念驱动的路由方案可能使用注意力机制或相似度度量来确定哪些拒绝器应该被激活,以及如何调整未充分利用的拒绝器。损失函数的设计也至关重要,可能包括用于训练概念调节器的分类损失、用于训练拒绝器的生成损失,以及用于鼓励拒绝器重用的正则化项。
🖼️ 关键图片
📊 实验亮点
论文在视觉-语言基准上进行了大量实验,结果表明,所提出的框架在生成基于概念的拒绝响应和保持通用性方面优于现有方法。具体的性能数据和提升幅度未知,但摘要强调了该框架在持续遗忘序列中的优越性。
🎯 应用场景
该研究成果可应用于各种需要持续学习和选择性遗忘的视觉-语言任务,例如:内容审核、个性化推荐、机器人交互等。通过选择性地遗忘不安全、不相关或过时的信息,模型可以更好地适应不断变化的环境,提高其安全性和可靠性,并提供更个性化的服务。
📄 摘要(原文)
Continual unlearning poses the challenge of enabling large vision-language models to selectively refuse specific image-instruction pairs in response to sequential deletion requests, while preserving general utility. However, sequential unlearning updates distort shared representations, creating spurious associations between vision-language pairs and refusal behaviors that hinder precise identification of refusal targets, resulting in inappropriate refusals. To address this challenge, we propose a novel continual unlearning framework that grounds refusal behavior in fine-grained descriptions of visual and textual concepts decomposed from deletion targets. We first identify which visual-linguistic concept combinations characterize each forget category through a concept modulator, then determine how to generate appropriate refusal responses via a mixture of refusal experts, termed refusers, each specialized for concept-aligned refusal generation. To generate concept-specific refusal responses across sequential tasks, we introduce a multimodal, concept-driven routing scheme that reuses refusers for tasks sharing similar concepts and adapts underutilized ones for novel concepts. Extensive experiments on vision-language benchmarks demonstrate that the proposed framework outperforms existing methods by generating concept-grounded refusal responses and preserving the general utility across unlearning sequences.