$\boldsymbolλ$-Orthogonality Regularization for Compatible Representation Learning
作者: Simone Ricci, Niccolò Biondi, Federico Pernici, Ioannis Patras, Alberto Del Bimbo
分类: cs.LG
发布日期: 2025-09-20 (更新: 2025-10-20)
备注: Accepted at NeurIPS2025
💡 一句话要点
提出λ-正交正则化,用于兼容表征学习,提升模型更新后的零样本性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 表征学习 兼容性 正交正则化 仿射变换 模型更新 零样本学习 知识迁移
📋 核心要点
- 现有方法难以在适应新数据分布的同时,保持模型更新前后表征空间的一致性,仿射变换易改变原始表征,正交变换限制了适应性。
- 提出λ-正交正则化,通过在学习仿射变换时施加一个宽松的正交约束,实现分布特定适应,同时保留原始学习的表征。
- 实验表明,该方法在各种架构和数据集上,能够保留模型的零样本性能,并确保模型更新之间的兼容性。
📝 摘要(中文)
检索系统依赖于日益强大的模型学习到的表征。然而,由于高昂的训练成本和学习到的表征的不一致性,促进表征之间的通信并确保独立训练的神经网络之间的兼容性变得非常重要。在文献中,通常使用两种主要方法来调整不同的学习表征:仿射变换,它能很好地适应特定分布,但会显著改变原始表征;正交变换,它以严格的几何约束保持原始结构,但限制了适应性。一个关键挑战是调整更新模型的潜在空间,使其与先前模型在下游分布上的潜在空间对齐,同时保留新学习的表征空间。在本文中,我们施加了一个宽松的正交约束,即λ-正交正则化,同时学习仿射变换,以获得特定于分布的适应,同时保留原始学习的表征。跨各种架构和数据集的广泛实验验证了我们的方法,表明它保留了模型的零样本性能,并确保了模型更新之间的兼容性。
🔬 方法详解
问题定义:论文旨在解决模型更新后,新旧模型表征空间不兼容的问题。现有方法,如直接使用仿射变换,虽然可以适应新的数据分布,但会显著改变原始模型的表征;而正交变换虽然能保持原始结构,但适应性有限。因此,如何在适应新分布的同时,保持模型更新前后表征空间的一致性是一个挑战。
核心思路:论文的核心思路是在学习仿射变换的同时,引入一个宽松的正交约束,即λ-正交正则化。这样既能保证模型适应新的数据分布,又能尽可能地保留原始模型的表征空间结构。通过控制λ的值,可以调节正交约束的强度,从而平衡适应性和结构保持。
技术框架:整体框架是在已有的模型表征基础上,学习一个仿射变换矩阵。该仿射变换矩阵受到λ-正交正则化的约束。具体流程如下:1. 使用原始模型提取特征;2. 学习仿射变换矩阵,该矩阵将原始特征映射到新的表征空间;3. 在学习过程中,使用λ-正交正则化约束仿射变换矩阵,使其尽可能接近正交矩阵。
关键创新:论文的关键创新在于提出了λ-正交正则化。与传统的正交正则化相比,λ-正交正则化更加灵活,允许仿射变换矩阵在一定程度上偏离正交矩阵,从而更好地适应新的数据分布。与直接使用仿射变换相比,λ-正交正则化能够更好地保留原始模型的表征空间结构。
关键设计:λ-正交正则化的具体形式为:||A^T A - λI||_F^2,其中A是仿射变换矩阵,I是单位矩阵,λ是一个超参数,用于控制正交约束的强度。损失函数由两部分组成:一部分是下游任务的损失,另一部分是λ-正交正则化项。通过调整λ的值,可以平衡下游任务的性能和表征空间的结构保持。
📊 实验亮点
论文通过在多个数据集和模型架构上进行实验,验证了λ-正交正则化的有效性。实验结果表明,该方法能够在保持模型零样本性能的同时,显著提高模型更新前后的表征空间兼容性。具体的性能数据和对比基线在论文中有详细展示,证明了该方法优于现有的仿射变换和正交变换方法。
🎯 应用场景
该研究成果可应用于各种需要模型持续更新和演进的场景,例如:推荐系统、图像检索、自然语言处理等。通过保持模型更新前后的表征空间兼容性,可以减少重新训练模型的成本,并提高模型的泛化能力。尤其是在数据分布不断变化的场景下,该方法具有重要的实际价值。
📄 摘要(原文)
Retrieval systems rely on representations learned by increasingly powerful models. However, due to the high training cost and inconsistencies in learned representations, there is significant interest in facilitating communication between representations and ensuring compatibility across independently trained neural networks. In the literature, two primary approaches are commonly used to adapt different learned representations: affine transformations, which adapt well to specific distributions but can significantly alter the original representation, and orthogonal transformations, which preserve the original structure with strict geometric constraints but limit adaptability. A key challenge is adapting the latent spaces of updated models to align with those of previous models on downstream distributions while preserving the newly learned representation spaces. In this paper, we impose a relaxed orthogonality constraint, namely $λ$-Orthogonality regularization, while learning an affine transformation, to obtain distribution-specific adaptation while retaining the original learned representations. Extensive experiments across various architectures and datasets validate our approach, demonstrating that it preserves the model's zero-shot performance and ensures compatibility across model updates. Code available at: \href{https://github.com/miccunifi/lambda_orthogonality.git}{https://github.com/miccunifi/lambda_orthogonality}.