ASRU: Activation Steering Meets Reinforcement Unlearning for Multimodal Large Language Models

📄 arXiv: 2605.15687v1 📥 PDF

作者: Jiahui Guang, Yingjie Zhu, Cuiyun Gao, Haiyan Wang, Jing Li, Di Shao, Zhaoquan Gu

分类: cs.CL, cs.AI

发布日期: 2026-05-15


💡 一句话要点

ASRU:激活引导与强化解学习相结合,提升多模态大语言模型的解学习效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 机器解学习 激活引导 强化学习 生成质量 隐私保护 模型安全

📋 核心要点

  1. 现有MLLM解学习方法侧重输出偏差,忽略生成质量,易产生幻觉或僵硬回复,影响模型可用性。
  2. ASRU框架通过激活重定向诱导拒绝行为,并用强化学习优化拒绝边界,平衡知识解学习和模型效用。
  3. 实验表明,ASRU在Qwen3-VL上显著提升解学习效果和生成质量,同时保持模型效用,仅需少量监督数据。

📝 摘要(中文)

多模态大语言模型(MLLMs)在预训练期间可能记忆敏感的跨模态信息,因此机器解学习(MU)至关重要。现有方法通常基于输出偏差评估解学习效果,而忽略了解学习后的生成质量,这容易导致幻觉或僵硬的响应,从而影响解学习模型的可用性和安全性。为了解决这个问题,我们提出了ASRU,一个可控的多模态解学习框架,它将生成质量作为核心评估目标。ASRU首先通过激活重定向诱导初始的拒绝行为,然后使用定制的奖励函数优化细粒度的拒绝边界,从而在目标知识解学习和模型效用之间实现更好的权衡。在Qwen3-VL上的实验表明,ASRU仅使用少量保留的监督数据,就能显著提高解学习效果(平均+24.6%)和生成质量(平均5.8倍),同时有效保持模型效用。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)中存在的敏感信息记忆问题,并提升机器解学习(MU)的效果。现有方法主要关注解学习后输出结果与原始结果的偏差程度,而忽略了解学习后模型的生成质量,这可能导致模型产生幻觉或生成僵硬的回复,从而影响模型的可用性和安全性。因此,如何在有效去除敏感信息的同时,保证模型的生成质量和效用是本文要解决的核心问题。

核心思路:论文的核心思路是结合激活引导和强化解学习,提出一个可控的多模态解学习框架ASRU。首先,通过激活重定向(Activation Steering)来诱导模型产生初始的拒绝行为,即让模型在遇到需要解学习的知识时倾向于拒绝回答。然后,利用强化学习,通过定制的奖励函数来优化拒绝的边界,从而在目标知识的解学习和模型的整体效用之间找到一个更好的平衡点。

技术框架:ASRU框架主要包含两个阶段:1) 激活重定向阶段:通过修改模型内部的激活值,引导模型对特定输入产生拒绝行为。具体来说,就是找到与目标知识相关的激活神经元,并调整其激活状态,使其倾向于输出拒绝回答。2) 强化解学习阶段:利用强化学习算法,通过定制的奖励函数来优化拒绝边界。奖励函数的设计综合考虑了解学习的效果(即模型是否成功拒绝回答敏感问题)和生成质量(即模型在回答其他问题时的流畅性和准确性)。通过不断地与环境交互,模型学习到最优的拒绝策略。

关键创新:ASRU的关键创新在于将生成质量纳入解学习的评估指标,并利用强化学习来优化解学习过程。与现有方法相比,ASRU不仅关注解学习的效果,还关注解学习后模型的可用性和安全性。通过激活重定向和强化解学习的结合,ASRU能够在去除敏感信息的同时,最大程度地保留模型的原始能力。

关键设计:在激活重定向阶段,需要确定哪些神经元与目标知识相关,以及如何调整这些神经元的激活状态。这可以通过分析模型内部的激活模式来实现。在强化解学习阶段,奖励函数的设计至关重要。论文中使用的奖励函数综合考虑了解学习的准确率、生成质量的流畅度和相关性等因素。此外,强化学习算法的选择也会影响解学习的效果。论文使用了合适的强化学习算法来优化拒绝策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ASRU在Qwen3-VL上进行了实验,结果表明,与现有方法相比,ASRU在解学习效果上平均提升了24.6%,在生成质量上平均提升了5.8倍,同时有效保持了模型的效用。这些结果表明,ASRU能够在去除敏感信息的同时,最大程度地保留模型的原始能力,从而实现更好的解学习效果。

🎯 应用场景

该研究成果可应用于各种需要保护用户隐私和数据安全的场景,例如医疗诊断、金融风控、智能客服等。通过ASRU框架,可以有效地去除多模态大语言模型中存在的敏感信息,防止模型泄露用户隐私或产生有害内容,从而提高模型的安全性和可靠性,促进其在实际应用中的推广。

📄 摘要(原文)

Multimodal large language models (MLLMs) may memorize sensitive cross-modal information during pretraining, making machine unlearning (MU) crucial. Existing methods typically evaluate unlearning effectiveness based on output deviations, while overlooking the generation quality after unlearning. This can easily lead to hallucinated or rigid responses, thereby affecting the usability and safety of the unlearned model. To address this issue, we propose ASRU, a controllable multimodal unlearning framework that incorporates generation quality as a core evaluation objective. ASRU first induces initial refusal behavior through activation redirection, and then optimizes fine-grained refusal boundaries using a customized reward function, thereby achieving a better trade-off between target knowledge unlearning and model utility. Experiments on Qwen3-VL show that ASRU significantly improves unlearning effectiveness (+24.6%) on average and generation quality (5.8x) on average while effectively preserving model utility, using only a small amount of retained supervision data.