Learning Where to Edit Vision Transformers

作者: Yunqiao Yang, Long-Kai Huang, Shengzhuang Chen, Kede Ma, Ying Wei

分类: cs.CV

发布日期: 2024-11-04

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于超网络的ViT编辑方法，提升模型在子群体偏移下的泛化性和局部性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉Transformer 模型编辑 元学习 子群体偏移 数据增强 超网络 计算机视觉

📋 核心要点

现有ViT模型在子群体偏移下表现不佳，缺乏有效的数据高效的编辑策略。
提出一种基于超网络的ViT编辑方法，通过元学习定位需要编辑的关键参数。
实验表明，该方法在泛化性和局部性之间取得了更好的平衡，并在新基准上表现出色。

📝 摘要（中文）

模型编辑旨在以数据高效的方式纠正大型预训练模型的预测错误，同时确保对相邻失败的泛化能力和局部性，以最大限度地减少对不相关示例的意外影响。尽管在编辑基于Transformer的大型语言模型方面取得了显著进展，但在计算机视觉中编辑视觉Transformer (ViT) 的有效策略仍未得到充分利用。本文朝着纠正ViT的预测错误迈出了初步的步伐，特别是那些由子群体偏移引起的错误。采用定位-然后-编辑的方法，我们首先通过元学习一个超网络来解决“在哪里编辑”的挑战，该超网络在为编辑可靠性而生成的CutMix增强数据上进行训练。这个训练好的超网络产生可泛化的二元掩码，用于识别对真实世界失败样本有反应的结构化模型参数的稀疏子集。然后，我们通过简单地使用梯度下降的变体微调识别出的参数来解决“如何编辑”的问题，以实现成功的编辑。为了验证我们的方法，我们构建了一个编辑基准，该基准引入了对自然代表性不足的图像和AI生成图像的子群体偏移，从而揭示了预训练ViT在对象识别方面的局限性。我们的方法不仅在提出的基准上实现了卓越的性能，而且允许在泛化和局部性之间进行可调整的权衡。我们的代码可在https://github.com/hustyyq/Where-to-Edit获得。

🔬 方法详解

问题定义：论文旨在解决视觉Transformer（ViT）在面对子群体偏移时，预测准确率下降的问题。现有模型编辑方法主要集中在语言模型上，缺乏针对ViT的有效编辑策略，尤其是在数据效率、泛化性和局部性之间取得平衡方面存在挑战。

核心思路：论文采用“定位-然后-编辑”的策略。首先，通过元学习训练一个超网络，用于预测模型中哪些参数对特定错误样本最敏感，从而确定需要编辑的位置。然后，仅对这些选定的参数进行微调，以修正错误并提高泛化能力，同时尽量减少对其他样本的影响。

技术框架：整体框架包含两个主要阶段：1) 定位阶段：使用CutMix增强数据训练一个超网络，该超网络以错误样本作为输入，输出一个二元掩码，用于选择ViT模型中需要编辑的参数子集。2) 编辑阶段：使用梯度下降的变体，仅对定位阶段选定的参数进行微调，以修正错误样本的预测，并提高模型在相关样本上的泛化能力。

关键创新：该方法的核心创新在于使用超网络来学习一个可泛化的参数选择策略。与直接微调整个模型或随机选择参数相比，超网络能够根据输入样本的特征，动态地选择最相关的参数进行编辑，从而提高了编辑的效率和效果。此外，该方法在编辑过程中考虑了局部性，尽量减少对不相关样本的影响。

关键设计：超网络的设计至关重要，其输入是错误样本，输出是ViT模型参数的二元掩码。CutMix数据增强用于提高超网络的泛化能力。在编辑阶段，可以使用不同的梯度下降变体，例如Adam或SGD，并调整学习率以获得最佳性能。损失函数通常包括一个交叉熵损失，用于修正错误样本的预测，以及一个正则化项，用于控制编辑的范围，以保证局部性。

🖼️ 关键图片

📊 实验亮点

论文提出的方法在构建的编辑基准上取得了显著的性能提升。该基准引入了对自然代表性不足的图像和AI生成图像的子群体偏移，更真实地反映了实际应用中可能遇到的问题。实验结果表明，该方法不仅能够有效地修正错误样本的预测，而且在泛化性和局部性之间取得了更好的平衡，优于现有的模型编辑方法。

🎯 应用场景

该研究成果可应用于各种计算机视觉任务中，尤其是在数据分布存在偏差或需要快速适应新领域的情况下。例如，在自动驾驶中，可以利用该方法快速修正模型对特定场景（如恶劣天气）的识别错误。在医疗图像分析中，可以用于提高模型对罕见疾病的诊断准确率。此外，该方法还可以用于增强模型的鲁棒性，使其更能抵抗对抗攻击。

📄 摘要（原文）

Model editing aims to data-efficiently correct predictive errors of large pre-trained models while ensuring generalization to neighboring failures and locality to minimize unintended effects on unrelated examples. While significant progress has been made in editing Transformer-based large language models, effective strategies for editing vision Transformers (ViTs) in computer vision remain largely untapped. In this paper, we take initial steps towards correcting predictive errors of ViTs, particularly those arising from subpopulation shifts. Taking a locate-then-edit approach, we first address the where-to-edit challenge by meta-learning a hypernetwork on CutMix-augmented data generated for editing reliability. This trained hypernetwork produces generalizable binary masks that identify a sparse subset of structured model parameters, responsive to real-world failure samples. Afterward, we solve the how-to-edit problem by simply fine-tuning the identified parameters using a variant of gradient descent to achieve successful edits. To validate our method, we construct an editing benchmark that introduces subpopulation shifts towards natural underrepresented images and AI-generated images, thereby revealing the limitations of pre-trained ViTs for object recognition. Our approach not only achieves superior performance on the proposed benchmark but also allows for adjustable trade-offs between generalization and locality. Our code is available at https://github.com/hustyyq/Where-to-Edit.

Learning Where to Edit Vision Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理