VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models
作者: Ravi Ranjan, Agoritsa Polyzou
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
VLA-Forget:用于具身基础模型的视觉-语言-动作协同式可控遗忘
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可控遗忘 具身智能 视觉-语言-动作模型 机器人操作 深度学习
📋 核心要点
- VLA模型在机器人操作中面临挑战,现有方法难以在移除不良行为的同时保持感知、语言和动作控制能力。
- VLA-Forget通过混合可控遗忘框架,结合比例感知选择性编辑和分层选择性推理/动作可控遗忘,实现精准遗忘。
- 实验表明,VLA-Forget在遗忘功效、感知特异性、推理保留和抗量化恢复等方面均优于现有基线方法。
📝 摘要(中文)
视觉-语言-动作(VLA)模型正在成为机器人操作的具身基础模型,但其部署引入了一个新的可控遗忘挑战:如何在不降低感知、语言理解和动作控制能力的前提下,移除不安全、虚假或隐私敏感的行为。在OpenVLA风格的策略中,行为是通过融合的视觉编码器、跨模态投影器和语言骨干网络产生的,后者预测token化的机器人动作。因此,不良知识可能分布在感知、对齐和推理/动作层,而不是局限于单个模块。因此,仅应用于视觉堆栈或语言骨干网络的部分可控遗忘通常是不够的,而为独立视觉或语言模型设计的传统可控遗忘基线可能会在具身环境中留下残留的遗忘或导致不必要的效用损失。我们提出了VLA-Forget,一种混合可控遗忘框架,它结合了用于感知和跨模态特异性的比例感知选择性编辑,以及用于保留效用的分层选择性推理/动作可控遗忘。VLA-Forget通过对视觉编码器、投影器和上层动作生成Transformer块的分阶段更新,共同优化三个目标:目标遗忘、感知保留和推理保留。在遗忘集行为探测和保留任务评估中,相对于强大的可控遗忘基线,VLA-Forget将遗忘功效提高了10%,将感知特异性提高了22%,将推理和任务成功率提高了9%,并将量化后恢复降低了55%。
🔬 方法详解
问题定义:论文旨在解决视觉-语言-动作(VLA)模型在机器人操作中部署时面临的可控遗忘问题。具体而言,如何在移除模型中不安全、虚假或隐私敏感行为的同时,最大限度地保留其感知、语言理解和动作控制能力。现有方法,如仅针对视觉或语言部分的可控遗忘,效果不佳,而传统的可控遗忘基线则可能导致效用损失。
核心思路:VLA-Forget的核心思路是采用一种混合的可控遗忘框架,该框架结合了针对感知和跨模态特异性的比例感知选择性编辑,以及针对推理和动作生成的分层选择性可控遗忘。通过这种方式,可以更精确地定位和移除不良知识,同时最大限度地保留模型的有用能力。
技术框架:VLA-Forget框架包含以下主要模块和阶段:1) 视觉编码器:负责提取视觉特征。2) 跨模态投影器:将视觉和语言特征对齐。3) 语言骨干网络:负责推理和生成token化的机器人动作。可控遗忘过程分为多个阶段,分别针对视觉编码器、投影器和语言骨干网络进行更新。
关键创新:VLA-Forget的关键创新在于其混合的可控遗忘策略。它不像传统方法那样只关注视觉或语言部分,而是同时考虑了感知、对齐和推理/动作层,并针对不同层采用了不同的可控遗忘技术。此外,比例感知选择性编辑和分层选择性可控遗忘的设计也提高了可控遗忘的精度和效率。
关键设计:VLA-Forget联合优化三个目标:目标遗忘、感知保留和推理保留。具体而言,论文设计了相应的损失函数来衡量这三个目标,并通过分阶段的更新策略来优化这些损失函数。此外,论文还采用了比例感知选择性编辑技术,根据不同神经元的贡献程度来调整其更新幅度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VLA-Forget在多个方面优于现有基线方法。具体而言,VLA-Forget将遗忘功效提高了10%,将感知特异性提高了22%,将推理和任务成功率提高了9%,并将量化后恢复降低了55%。这些结果表明,VLA-Forget是一种有效且实用的VLA模型可控遗忘方法。
🎯 应用场景
VLA-Forget可应用于各种机器人操作场景,例如家庭服务机器人、工业机器人和自动驾驶汽车。通过移除不安全或不期望的行为,可以提高机器人的安全性和可靠性。此外,该方法还可以用于保护用户隐私,例如移除包含敏感信息的训练数据。
📄 摘要(原文)
Vision-language-action (VLA) models are emerging as embodied foundation models for robotic manipulation, but their deployment introduces a new unlearning challenge: removing unsafe, spurious, or privacy-sensitive behaviors without degrading perception, language grounding, and action control. In OpenVLA-style policies, behavior is produced through a fused visual encoder, a cross-modal projector, and a language backbone that predicts tokenized robot actions, so undesirable knowledge can be distributed across perception, alignment, and reasoning/action layers rather than confined to a single module. Consequently, partial unlearning applied only to the vision stack or only to the language backbone is often insufficient, while conventional unlearning baselines designed for standalone vision or language models may leave residual forgetting or incur unnecessary utility loss in embodied settings. We propose VLA-Forget, a hybrid unlearning framework that combines ratio-aware selective editing for perception and cross-modal specificity with layer-selective reasoning/action unlearning for utility-preserving forgetting. VLA-Forget jointly optimizes three objectives: targeted forgetting, perceptual preservation, and reasoning retention, through staged updates over the visual encoder, projector, and upper action-generating transformer blocks. Across forget-set behavior probes and retain-task evaluations, VLA-Forget improves forgetting efficacy by 10%, preserves perceptual specificity by 22%, retains reasoning and task success by 9%, and reduces post-quantization recovery by 55% relative to strong unlearning baselines.