How Do the Architecture and Optimizer Affect Representation Learning? On the Training Dynamics of Representations in Deep Neural Networks

作者: Yuval Sharon, Yehuda Dar

分类: cs.LG

发布日期: 2024-05-27 (更新: 2025-02-03)

💡 一句话要点

研究架构和优化器如何影响深度神经网络表征学习的训练动态

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 表征学习 深度神经网络 训练动态 中心核对齐 Vision Transformer ResNet 优化器 过参数化

📋 核心要点

现有研究对深度神经网络训练过程中表征的演变缺乏深入理解，尤其是在过参数化场景下。
本文通过分析DNN层间的表征相似性，以及线性分类器探针的决策区域，揭示了训练动态的模式。
实验表明，SGD训练比Adam训练更容易区分训练阶段，ViT的层间表征学习动态比ResNet更同步。

📝 摘要（中文）

本文旨在阐明深度神经网络（DNN）中表征在训练过程中的演变方式。研究重点是过参数化的学习环境，其中训练在训练后的DNN开始完美拟合其训练数据后仍在继续。我们考察了整个训练过程中学习到的表征的演变。我们探索了DNN层在整个训练过程中，每一层相对于自身表征的表征相似性。为此，我们使用了两种相似性度量：（1）中心核对齐（CKA）相似性；（2）为DNN层训练的线性分类器探针的决策区域的相似性。我们可视化并分析了DNN输出和层探针在DNN训练期间的决策区域，以展示它们在几何上的演变方式。我们广泛的实验发现了训练动态模式，这些模式可能出现在层中，具体取决于相对层深度、架构和优化器。我们的发现包括：（i）与Adam训练相比，SGD训练中，包括与记忆相关的训练阶段更容易区分，并且对于Vision Transformer（ViT）比ResNet更容易区分；（ii）与ResNet不同，ViT层具有同步的表征学习动态。

🔬 方法详解

问题定义：现有方法缺乏对深度神经网络训练过程中表征演变的细致理解，尤其是在过参数化场景下，模型在完美拟合训练数据后仍然持续训练。这导致对模型泛化能力和内部工作机制的理解不足。

核心思路：本文的核心思路是通过研究不同架构（ResNet, ViT）和优化器（SGD, Adam）下，DNN层在训练过程中的表征相似性变化，以及线性分类器探针的决策区域演变，来揭示训练动态的模式。通过分析这些模式，可以更好地理解不同架构和优化器如何影响表征学习。

技术框架：该研究的技术框架主要包括以下几个步骤：1. 使用不同的架构（ResNet, ViT）和优化器（SGD, Adam）训练深度神经网络。2. 在训练过程中，定期提取DNN各层的表征。3. 使用中心核对齐（CKA）相似性度量和线性分类器探针的决策区域相似性度量来评估层间的表征相似性。4. 可视化并分析DNN输出和层探针的决策区域，观察其几何演变。5. 分析不同架构和优化器下，表征相似性和决策区域演变的差异，从而揭示训练动态的模式。

关键创新：该研究的关键创新在于：1. 系统性地研究了不同架构和优化器对DNN表征学习动态的影响。2. 使用CKA相似性和线性分类器探针的决策区域相似性作为表征相似性的度量，并结合可视化分析，提供了更全面的理解。3. 揭示了ViT和ResNet在表征学习动态上的差异，以及SGD和Adam在训练阶段区分度上的差异。

关键设计：该研究的关键设计包括：1. 选择ResNet和ViT作为代表性的卷积神经网络和Transformer架构。2. 使用SGD和Adam作为常用的优化器。3. 使用中心核对齐（CKA）相似性来衡量不同层之间的表征相似性。4. 训练线性分类器探针，并分析其决策区域的演变，以补充CKA相似性的分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SGD训练比Adam训练更容易区分训练阶段，尤其是在ViT架构下。与ResNet相比，ViT的层间表征学习动态更加同步。这些发现揭示了不同架构和优化器在表征学习上的差异，为模型选择和优化提供了新的视角。

🎯 应用场景

该研究成果可应用于模型选择、超参数优化和网络架构设计。通过理解不同架构和优化器下的训练动态，可以更好地选择适合特定任务的模型和优化器，并设计更有效的网络结构。此外，该研究还有助于提高模型的可解释性和鲁棒性。

📄 摘要（原文）

In this paper, we elucidate how representations in deep neural networks (DNNs) evolve during training. Our focus is on overparameterized learning settings where the training continues much after the trained DNN starts to perfectly fit its training data. We examine the evolution of learned representations along the entire training process. We explore the representational similarity of DNN layers, each layer with respect to its own representations throughout the training process. For this, we use two similarity metrics: (1) The centered kernel alignment (CKA) similarity; (2) Similarity of decision regions of linear classifier probes that we train for the DNN layers. We visualize and analyze the decision regions of the DNN output and the layer probes during the DNN training to show how they geometrically evolve. Our extensive experiments discover training dynamics patterns that can emerge in layers depending on the relative layer-depth, architecture and optimizer. Among our findings: (i) The training phases, including those related to memorization, are more distinguishable in SGD training than in Adam training, and for Vision Transformer (ViT) than for ResNet; (ii) Unlike ResNet, the ViT layers have synchronized dynamics of representation learning.

How Do the Architecture and Optimizer Affect Representation Learning? On the Training Dynamics of Representations in Deep Neural Networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理