$\boldsymbolλ$-Orthogonality Regularization for Compatible Representation Learning
作者: Simone Ricci, Niccolò Biondi, Federico Pernici, Ioannis Patras, Alberto Del Bimbo
分类: cs.LG
发布日期: 2025-09-20 (更新: 2025-10-20)
备注: Accepted at NeurIPS2025
💡 一句话要点
提出λ-正交正则化,用于兼容表征学习,提升模型更新后的零样本性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 表征学习 兼容性学习 正交正则化 仿射变换 零样本学习
📋 核心要点
- 现有方法在适应不同模型学习的表征时,仿射变换会过度改变原始表征,而正交变换则限制了适应性。
- 论文提出λ-正交正则化,在学习仿射变换的同时施加宽松的正交约束,以实现分布特定的适应性并保留原始表征。
- 实验结果表明,该方法在保留模型零样本性能的同时,确保了模型更新之间的兼容性。
📝 摘要(中文)
检索系统依赖于日益强大的模型学习到的表征。然而,由于高昂的训练成本和学习到的表征的不一致性,促进表征之间的通信并确保独立训练的神经网络之间的兼容性变得非常重要。在文献中,通常使用两种主要方法来调整不同的学习表征:仿射变换,它能很好地适应特定分布,但会显著改变原始表征;正交变换,它以严格的几何约束保持原始结构,但限制了适应性。一个关键的挑战是调整更新模型的潜在空间,使其与先前模型在下游分布上的潜在空间对齐,同时保留新学习的表征空间。在本文中,我们施加了一个宽松的正交约束,即λ-正交正则化,同时学习仿射变换,以获得特定于分布的适应性,同时保留原始学习的表征。跨各种架构和数据集的广泛实验验证了我们的方法,证明了它保留了模型的零样本性能,并确保了模型更新之间的兼容性。
🔬 方法详解
问题定义:论文旨在解决在模型更新迭代过程中,如何保证新模型学习到的表征与旧模型表征的兼容性问题。现有方法,如直接使用仿射变换,虽然可以适应特定分布,但可能会过度改变原始表征;而正交变换虽然能保持原始结构,但限制了模型的适应能力。因此,如何在保持模型适应性的同时,尽可能保留原始学习到的表征结构,是本论文要解决的核心问题。
核心思路:论文的核心思路是在学习仿射变换的同时,引入一个λ-正交正则化项。这个正则化项旨在对仿射变换矩阵施加一个宽松的正交约束,使其既能适应新的数据分布,又能尽可能地保持原始表征的结构。通过调整λ的值,可以控制正交约束的强度,从而平衡适应性和结构保持之间的关系。
技术框架:该方法主要包含以下几个步骤:首先,使用一个预训练好的模型提取特征表征;然后,学习一个仿射变换矩阵,将新的特征表征映射到与旧的特征表征兼容的空间;最后,在训练仿射变换矩阵时,加入λ-正交正则化项,以约束变换矩阵。整体流程简单清晰,易于实现。
关键创新:论文的关键创新在于提出了λ-正交正则化。与传统的正交变换相比,λ-正交正则化允许一定程度的偏差,从而提高了模型的适应能力。与直接使用仿射变换相比,λ-正交正则化可以更好地保持原始表征的结构,避免过度改变。
关键设计:λ-正交正则化项的具体形式为:||A^T A - I||_F,其中A是仿射变换矩阵,I是单位矩阵,||.||_F表示Frobenius范数。λ是一个超参数,用于控制正交约束的强度。损失函数由两部分组成:一部分是标准的表征学习损失,另一部分是λ-正交正则化项。通过调整λ的值,可以平衡这两部分损失的权重。
🖼️ 关键图片
📊 实验亮点
论文在多个数据集和架构上进行了实验验证,结果表明,提出的λ-正交正则化方法可以在保留模型零样本性能的同时,有效地确保模型更新之间的兼容性。具体来说,该方法在多个任务上都取得了与基线方法相当甚至更好的性能,并且在模型更新后,性能下降幅度明显小于其他方法。
🎯 应用场景
该研究成果可应用于各种需要模型持续更新和迭代的场景,例如:在线学习、迁移学习、联邦学习等。通过确保模型更新后的表征与之前的表征兼容,可以避免灾难性遗忘,提高模型的稳定性和可靠性。此外,该方法还可以用于构建更加模块化的模型,方便模型的组合和扩展。
📄 摘要(原文)
Retrieval systems rely on representations learned by increasingly powerful models. However, due to the high training cost and inconsistencies in learned representations, there is significant interest in facilitating communication between representations and ensuring compatibility across independently trained neural networks. In the literature, two primary approaches are commonly used to adapt different learned representations: affine transformations, which adapt well to specific distributions but can significantly alter the original representation, and orthogonal transformations, which preserve the original structure with strict geometric constraints but limit adaptability. A key challenge is adapting the latent spaces of updated models to align with those of previous models on downstream distributions while preserving the newly learned representation spaces. In this paper, we impose a relaxed orthogonality constraint, namely $λ$-Orthogonality regularization, while learning an affine transformation, to obtain distribution-specific adaptation while retaining the original learned representations. Extensive experiments across various architectures and datasets validate our approach, demonstrating that it preserves the model's zero-shot performance and ensures compatibility across model updates. Code available at: \href{https://github.com/miccunifi/lambda_orthogonality.git}{https://github.com/miccunifi/lambda_orthogonality}.