Anon: Extrapolating Optimizer Adaptivity Across the Real Spectrum

作者: Yiheng Zhang, Kaiyan Zhao, Shaowu Wu, Yiming Wang, Jiajun Wu, Leong Hou U, Steve Drew, Xiaoguang Niu

分类: cs.AI, cs.LG

发布日期: 2026-05-04

💡 一句话要点

提出Anon优化器，通过可调适应性和增量延迟更新，统一并超越经典与现代优化器。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 优化器 自适应优化 泛化能力 梯度噪声 收敛性 深度学习 图像分类 语言建模

📋 核心要点

自适应优化器在大型模型训练中表现出色，但在传统模型上泛化性不如SGD等非自适应方法。
Anon优化器通过可调适应性，在SGD和Adam之间插值，甚至超越两者，以适应不同的优化地形。
引入增量延迟更新（IDU）机制，增强了对梯度噪声的鲁棒性，并保证了在凸和非凸设置下的收敛性。

📝 摘要（中文）

自适应优化器（如Adam）在训练大规模模型（如大型语言模型和扩散模型）方面取得了巨大成功。然而，与非自适应方法（如SGD）在经典架构（如CNN）上的泛化能力相比，它们通常表现较差。我们发现这种性能差距的关键原因是预处理器的适应性，这限制了优化器适应不同优化地形的能力。为了解决这个问题，我们提出了Anon（具有新型收敛技术的适应性非限制优化器），它在R中具有连续可调的适应性，使其能够在类似SGD和类似Adam的行为之间插值，甚至超越两者。为了确保整个适应性范围内的收敛，我们引入了增量延迟更新（IDU），这是一种比AMSGrad的硬最大值跟踪策略更灵活的新机制，并增强了对梯度噪声的鲁棒性。我们在凸和非凸设置下理论上建立了收敛保证。在实验上，Anon在代表性的图像分类、扩散和语言建模任务中始终优于最先进的优化器。这些结果表明，适应性可以作为一种有价值的可调设计原则，而Anon提供了第一个统一且可靠的框架，能够弥合经典优化器和现代优化器之间的差距，并超越它们的优势特性。

🔬 方法详解

问题定义：现有自适应优化器（如Adam）在训练大型模型时表现良好，但在传统模型（如CNN）上的泛化能力不如非自适应优化器（如SGD）。这种性能差距源于自适应优化器对预处理器的过度依赖，限制了其适应不同优化地形的能力。因此，需要一种能够兼顾自适应性和泛化性的优化器。

核心思路：Anon的核心思路是提供一个具有连续可调适应性的优化器，使其能够在类似SGD和类似Adam的行为之间平滑过渡，甚至超越两者。通过调整适应性参数，Anon可以更好地适应不同的优化地形，从而提高泛化能力。此外，Anon还引入了增量延迟更新（IDU）机制，以增强对梯度噪声的鲁棒性，并保证收敛性。

技术框架：Anon优化器的整体框架包括以下几个关键部分：1) 可调适应性模块：允许用户在连续范围内调整优化器的适应性；2) 梯度更新模块：根据调整后的适应性参数和梯度信息更新模型参数；3) 增量延迟更新（IDU）模块：用于平滑梯度更新，增强对梯度噪声的鲁棒性；4) 收敛性保证模块：提供理论保证，确保在凸和非凸设置下的收敛性。

关键创新：Anon最重要的技术创新在于其可调适应性和增量延迟更新（IDU）机制。可调适应性允许优化器根据不同的优化地形动态调整其行为，从而提高泛化能力。IDU机制通过平滑梯度更新，增强了对梯度噪声的鲁棒性，并保证了收敛性。与现有方法（如Adam和SGD）相比，Anon能够更好地平衡自适应性和泛化性。

关键设计：Anon的关键设计包括：1) 适应性参数的范围和调整策略：需要仔细选择适应性参数的范围，并设计合适的调整策略，以确保优化器能够有效地适应不同的优化地形；2) IDU机制的参数设置：需要仔细设置IDU机制的参数，以平衡梯度更新的平滑程度和收敛速度；3) 损失函数和网络结构的选择：Anon的性能可能受到损失函数和网络结构的影响，因此需要根据具体的应用场景进行选择。

🖼️ 关键图片

📊 实验亮点

Anon在图像分类、扩散模型和语言建模等任务上均优于现有优化器。例如，在图像分类任务中，Anon的性能超过了Adam和SGD等基线方法。在扩散模型和语言建模任务中，Anon也取得了显著的性能提升，表明其具有良好的泛化能力和鲁棒性。

🎯 应用场景

Anon优化器具有广泛的应用前景，可用于训练各种类型的机器学习模型，包括图像分类模型、扩散模型和语言模型。它尤其适用于需要平衡自适应性和泛化性的场景，例如在数据分布变化剧烈或存在大量噪声的情况下。Anon的未来影响在于提供了一种更通用、更可靠的优化框架，可以加速机器学习模型的训练和部署。

📄 摘要（原文）

Adaptive optimizers such as Adam have achieved great success in training large-scale models like large language models and diffusion models. However, they often generalize worse than non-adaptive methods, such as SGD on classical architectures like CNNs. We identify a key cause of this performance gap: adaptivity in pre-conditioners, which limits the optimizer's ability to adapt to diverse optimization landscapes. To address this, we propose Anon (Adaptivity Non-restricted Optimizer with Novel convergence technique), a novel optimizer with continuously tunable adaptivity in R, allowing it to interpolate between SGD-like and Adam-like behaviors and even extrapolate beyond both. To ensure convergence across the entire adaptivity spectrum, we introduce incremental delay update (IDU), a novel mechanism that is more flexible than AMSGrad's hard max-tracking strategy and enhances robustness to gradient noise. We theoretically establish convergence guarantees under both convex and non-convex settings. Empirically, Anon consistently outperforms state-of-the-art optimizers on representative image classification, diffusion, and language modeling tasks. These results demonstrate that adaptivity can serve as a valuable tunable design principle, and Anon provides the first unified and reliable framework capable of bridging the gap between classical and modern optimizers and surpassing their advantageous properties.

Anon: Extrapolating Optimizer Adaptivity Across the Real Spectrum

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理