ResiDual Transformer Alignment with Spectral Decomposition
作者: Lorenzo Basile, Valentino Maiorca, Luca Bortolussi, Emanuele Rodolà, Francesco Locatello
分类: cs.CV, cs.LG
发布日期: 2024-10-31 (更新: 2025-04-14)
备注: Published in Transactions on Machine Learning Research (TMLR)
💡 一句话要点
提出ResiDual,通过谱分解对Transformer残差流进行对齐,提升零样本分类性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉Transformer 残差流 谱分解 模态对齐 零样本分类
📋 核心要点
- 现有Transformer模型残差连接中的注意力头存在功能特化现象,但缺乏对其在多模态对齐中作用的深入理解。
- 论文提出ResiDual方法,通过谱分解对残差流进行对齐,突出任务相关的特征,抑制噪声,从而提升模型性能。
- 实验表明,ResiDual在多种预训练模型和数据集上,实现了与微调相当的性能,同时保持了模型的可解释性和参数效率。
📝 摘要(中文)
本文通过残差流的视角,揭示了Transformer网络中一个有趣的现象:残差贡献(例如,注意力头)有时会专注于特定任务或输入属性。本文分析了视觉Transformer中的这种现象,重点关注残差的谱几何,并探讨了其对视觉-语言模型中模态对齐的影响。首先,将其与视觉头表示的内在低维结构联系起来,深入研究其主成分,并表明它们编码了各种输入数据分布中的专门角色。然后,分析了头专业化在多模态模型中的影响,重点关注文本和专业化头之间改进的对齐如何影响零样本分类性能。这种专业化-性能联系在不同的预训练数据、网络大小和目标中始终成立,证明了一种通过有针对性的对齐来提高零样本分类的强大新机制。最后,通过引入ResiDual,一种用于残差流谱对齐的技术,将这些见解转化为可操作的术语。就像淘金一样,它可以让来自不相关单元主成分(即属性)的噪声消失,从而放大与任务相关的成分。值得注意的是,这种模态对齐的双重视角在不同的数据分布上产生了微调级别的性能,同时建模了一个极其可解释和参数高效的转换,正如我们在70个预训练网络-数据集组合(7个模型,10个数据集)上广泛展示的那样。
🔬 方法详解
问题定义:现有视觉-语言模型在零样本分类任务中,文本和图像模态的对齐不够充分,导致性能受限。Transformer中的注意力头存在功能特化现象,但如何利用这种特化来提升模态对齐效果是一个挑战。现有方法通常依赖于复杂的微调策略,计算成本高昂且缺乏可解释性。
核心思路:论文的核心思路是利用残差流中注意力头的谱几何特性,通过谱分解提取任务相关的特征,并对齐不同模态的表示。通过突出与任务相关的特征,抑制噪声,从而提升模态对齐效果,最终提高零样本分类性能。这种方法旨在利用注意力头的内在结构,实现更高效、可解释的模态对齐。
技术框架:ResiDual方法主要包含以下几个阶段:1) 对Transformer模型的残差流进行谱分解,提取每个注意力头的主成分。2) 根据任务相关性,选择重要的主成分,并抑制噪声成分。3) 对齐文本和图像模态的表示,利用对齐后的残差流进行预测。整体流程简单高效,易于集成到现有的视觉-语言模型中。
关键创新:ResiDual的关键创新在于利用谱分解来分析和对齐Transformer的残差流。与传统的微调方法不同,ResiDual直接操作残差连接,通过选择性地保留或抑制主成分,实现对模态表示的精细控制。这种方法不仅提升了性能,还提高了模型的可解释性,可以更好地理解不同注意力头的作用。
关键设计:ResiDual的关键设计包括:1) 使用奇异值分解(SVD)对残差流进行谱分解。2) 设计一种选择策略,根据任务相关性选择重要的主成分。3) 使用简单的线性变换对齐文本和图像模态的表示。具体的参数设置和损失函数需要根据具体的任务和数据集进行调整,但整体框架具有通用性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ResiDual在70个预训练网络-数据集组合(7个模型,10个数据集)上取得了显著的性能提升,在不同的数据分布上产生了与微调级别相当的性能。例如,在某些数据集上,ResiDual的零样本分类准确率超过了基线模型,并接近甚至超过了微调后的模型。
🎯 应用场景
该研究成果可应用于各种视觉-语言任务,例如零样本图像分类、图像描述生成、视觉问答等。通过提升模态对齐效果,可以提高模型的泛化能力和鲁棒性。此外,该方法具有良好的可解释性,有助于理解Transformer模型的工作机制,为模型设计和优化提供指导。
📄 摘要(原文)
When examined through the lens of their residual streams, a puzzling property emerges in transformer networks: residual contributions (e.g., attention heads) sometimes specialize in specific tasks or input attributes. In this paper, we analyze this phenomenon in vision transformers, focusing on the spectral geometry of residuals, and explore its implications for modality alignment in vision-language models. First, we link it to the intrinsically low-dimensional structure of visual head representations, zooming into their principal components and showing that they encode specialized roles across a wide variety of input data distributions. Then, we analyze the effect of head specialization in multimodal models, focusing on how improved alignment between text and specialized heads impacts zero-shot classification performance. This specialization-performance link consistently holds across diverse pre-training data, network sizes, and objectives, demonstrating a powerful new mechanism for boosting zero-shot classification through targeted alignment. Ultimately, we translate these insights into actionable terms by introducing ResiDual, a technique for spectral alignment of the residual stream. Much like panning for gold, it lets the noise from irrelevant unit principal components (i.e., attributes) wash away to amplify task-relevant ones. Remarkably, this dual perspective on modality alignment yields fine-tuning level performance on different data distributions while modelling an extremely interpretable and parameter-efficient transformation, as we extensively show on 70 pre-trained network-dataset combinations (7 models, 10 datasets).