Visual-Guided Key-Token Regularization for Multimodal Large Language Model Unlearning

作者: Chengyi Cai, Zesheng Ye, Peike Li, Bo Han, Jianzhong Qi, Feng Liu

分类: cs.LG, cs.CV

发布日期: 2026-01-29

💡 一句话要点

提出视觉引导的关键Token正则化方法ViKeR，用于多模态大语言模型的可控遗忘

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 可控遗忘 视觉引导 关键Token正则化 信息熵 梯度重加权

📋 核心要点

现有MLLM可控遗忘方法忽略了答案token的重要性差异和视觉线索，导致遗忘效果不佳。
ViKeR利用不相关的视觉输入预测遗忘后的token分布，并以此正则化遗忘过程，突出关键token的作用。
实验表明ViKeR在有效遗忘的同时，能减轻灾难性遗忘，并保持模型响应的连贯性。

📝 摘要（中文）

本文研究多模态大语言模型（MLLM）中的可控遗忘问题，旨在防止模型在被查询目标图像时泄露隐私信息。现有MLLM可控遗忘方法主要采用为LLM开发的策略，它们统一对待所有答案token，忽略了它们在可控遗忘过程中的不同重要性，并且只关注语言模态，忽略了指示答案中关键token的视觉线索。本文在形式化定义了MLLM中多模态问答的可控遗忘问题后，提出了视觉引导的关键Token正则化方法（ViKeR）。ViKeR利用不相关的视觉输入来预测理想的遗忘后token级分布，并使用这些分布来正则化遗忘过程，从而优先考虑关键token。此外，本文通过信息熵定义了遗忘中的关键token，并通过token级梯度重加权讨论了ViKeR的有效性，该方法放大了对关键token的更新。在MLLMU和CLEAR基准上的实验表明，该方法有效地执行了可控遗忘，同时减轻了遗忘并保持了响应连贯性。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）的可控遗忘问题，即如何使模型忘记与特定图像相关联的知识，以防止隐私泄露。现有方法主要借鉴LLM的可控遗忘技术，但忽略了多模态数据的特性，特别是视觉信息对于答案中关键token的指示作用，导致遗忘效果不佳，且容易引起灾难性遗忘。

核心思路：论文的核心思路是利用视觉信息来引导可控遗忘过程，通过识别并重点遗忘答案中的关键token，提高遗忘效率和效果。具体而言，利用不相关的视觉输入来预测模型在遗忘后的理想token分布，并使用该分布作为正则化项，引导模型遗忘过程，从而优先遗忘关键token。

技术框架：ViKeR方法主要包含以下几个阶段：1) 关键Token识别：使用信息熵来衡量每个token的重要性，熵值越低，表示该token越关键。2) 理想分布预测：输入与目标图像无关的视觉信息，让模型预测遗忘后的理想token分布。3) 正则化遗忘：使用预测的理想分布作为正则化项，调整模型参数，使模型输出的token分布接近理想分布，从而实现可控遗忘。4) 梯度重加权：通过梯度重加权，放大关键token的梯度更新，进一步提高遗忘效果。

关键创新：该方法最重要的创新点在于将视觉信息引入到MLLM的可控遗忘过程中，利用视觉信息来指导关键token的识别和遗忘，从而提高了遗忘的效率和效果。与现有方法相比，ViKeR更加关注多模态数据的特性，能够更准确地识别需要遗忘的关键信息。

关键设计：关键设计包括：1) 使用信息熵来衡量token的重要性，熵值越低，表示该token越关键。2) 使用不相关的视觉输入来预测遗忘后的理想token分布，该分布作为正则化项，引导模型遗忘过程。3) 通过梯度重加权，放大关键token的梯度更新，进一步提高遗忘效果。损失函数包含一个标准的可控遗忘损失项和一个基于KL散度的正则化项，用于约束模型输出的token分布接近理想分布。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ViKeR方法在MLLMU和CLEAR基准测试中均取得了显著的性能提升。与现有方法相比，ViKeR在有效执行可控遗忘的同时，能够显著减轻灾难性遗忘，并保持模型响应的连贯性。具体的性能数据和对比基线在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于各种涉及多模态数据的大语言模型，例如图像问答、视觉对话等。通过可控遗忘技术，可以有效防止模型泄露用户隐私信息，提高模型的安全性和可靠性。未来，该技术还可以应用于版权保护、内容审查等领域，具有广阔的应用前景。

📄 摘要（原文）

Unlearning in Multimodal Large Language Models (MLLMs) prevents the model from revealing private information when queried about target images. Existing MLLM unlearning methods largely adopt approaches developed for LLMs. They treat all answer tokens uniformly, disregarding their varying importance in the unlearning process. Moreover, these methods focus exclusively on the language modality, disregarding visual cues that indicate key tokens in answers. In this paper, after formulating the problem of unlearning in multimodal question answering for MLLMs, we propose Visual-Guided Key-Token Regularization (ViKeR). We leverage irrelevant visual inputs to predict ideal post-unlearning token-level distributions and use these distributions to regularize the unlearning process, thereby prioritizing key tokens. Further, we define key tokens in unlearning via information entropy and discuss ViKeR's effectiveness through token-level gradient reweighting, which amplifies updates on key tokens. Experiments on MLLMU and CLEAR benchmarks demonstrate that our method effectively performs unlearning while mitigating forgetting and maintaining response coherence.

Visual-Guided Key-Token Regularization for Multimodal Large Language Model Unlearning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理