Anon: Extrapolating Optimizer Adaptivity Across the Real Spectrum
作者: Yiheng Zhang, Kaiyan Zhao, Shaowu Wu, Yiming Wang, Jiajun Wu, Leong Hou U, Steve Drew, Xiaoguang Niu
分类: cs.AI, cs.LG
发布日期: 2026-05-04
💡 一句话要点
提出Anon优化器,通过可调适应性和增量延迟更新,统一并超越经典与现代优化器。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 优化器 自适应优化 泛化能力 梯度噪声 收敛性 深度学习 图像分类 语言建模
📋 核心要点
- 自适应优化器在大型模型训练中表现出色,但在传统模型上泛化性不如SGD等非自适应方法。
- Anon优化器通过可调适应性,在SGD和Adam之间插值,甚至超越两者,以适应不同的优化地形。
- 引入增量延迟更新(IDU)机制,增强了对梯度噪声的鲁棒性,并保证了在凸和非凸设置下的收敛性。
📝 摘要(中文)
自适应优化器(如Adam)在训练大规模模型(如大型语言模型和扩散模型)方面取得了巨大成功。然而,与非自适应方法(如SGD)在经典架构(如CNN)上的泛化能力相比,它们通常表现较差。我们发现这种性能差距的关键原因是预处理器的适应性,这限制了优化器适应不同优化地形的能力。为了解决这个问题,我们提出了Anon(具有新型收敛技术的适应性非限制优化器),它在R中具有连续可调的适应性,使其能够在类似SGD和类似Adam的行为之间插值,甚至超越两者。为了确保整个适应性范围内的收敛,我们引入了增量延迟更新(IDU),这是一种比AMSGrad的硬最大值跟踪策略更灵活的新机制,并增强了对梯度噪声的鲁棒性。我们在凸和非凸设置下理论上建立了收敛保证。在实验上,Anon在代表性的图像分类、扩散和语言建模任务中始终优于最先进的优化器。这些结果表明,适应性可以作为一种有价值的可调设计原则,而Anon提供了第一个统一且可靠的框架,能够弥合经典优化器和现代优化器之间的差距,并超越它们的优势特性。
🔬 方法详解
问题定义:现有自适应优化器(如Adam)在训练大型模型时表现良好,但在传统模型(如CNN)上的泛化能力不如非自适应优化器(如SGD)。这种性能差距源于自适应优化器对预处理器的过度依赖,限制了其适应不同优化地形的能力。因此,需要一种能够兼顾自适应性和泛化性的优化器。
核心思路:Anon的核心思路是提供一个具有连续可调适应性的优化器,使其能够在类似SGD和类似Adam的行为之间平滑过渡,甚至超越两者。通过调整适应性参数,Anon可以更好地适应不同的优化地形,从而提高泛化能力。此外,Anon还引入了增量延迟更新(IDU)机制,以增强对梯度噪声的鲁棒性,并保证收敛性。
技术框架:Anon优化器的整体框架包括以下几个关键部分:1) 可调适应性模块:允许用户在连续范围内调整优化器的适应性;2) 梯度更新模块:根据调整后的适应性参数和梯度信息更新模型参数;3) 增量延迟更新(IDU)模块:用于平滑梯度更新,增强对梯度噪声的鲁棒性;4) 收敛性保证模块:提供理论保证,确保在凸和非凸设置下的收敛性。
关键创新:Anon最重要的技术创新在于其可调适应性和增量延迟更新(IDU)机制。可调适应性允许优化器根据不同的优化地形动态调整其行为,从而提高泛化能力。IDU机制通过平滑梯度更新,增强了对梯度噪声的鲁棒性,并保证了收敛性。与现有方法(如Adam和SGD)相比,Anon能够更好地平衡自适应性和泛化性。
关键设计:Anon的关键设计包括:1) 适应性参数的范围和调整策略:需要仔细选择适应性参数的范围,并设计合适的调整策略,以确保优化器能够有效地适应不同的优化地形;2) IDU机制的参数设置:需要仔细设置IDU机制的参数,以平衡梯度更新的平滑程度和收敛速度;3) 损失函数和网络结构的选择:Anon的性能可能受到损失函数和网络结构的影响,因此需要根据具体的应用场景进行选择。
🖼️ 关键图片
📊 实验亮点
Anon在图像分类、扩散模型和语言建模等任务上均优于现有优化器。例如,在图像分类任务中,Anon的性能超过了Adam和SGD等基线方法。在扩散模型和语言建模任务中,Anon也取得了显著的性能提升,表明其具有良好的泛化能力和鲁棒性。
🎯 应用场景
Anon优化器具有广泛的应用前景,可用于训练各种类型的机器学习模型,包括图像分类模型、扩散模型和语言模型。它尤其适用于需要平衡自适应性和泛化性的场景,例如在数据分布变化剧烈或存在大量噪声的情况下。Anon的未来影响在于提供了一种更通用、更可靠的优化框架,可以加速机器学习模型的训练和部署。
📄 摘要(原文)
Adaptive optimizers such as Adam have achieved great success in training large-scale models like large language models and diffusion models. However, they often generalize worse than non-adaptive methods, such as SGD on classical architectures like CNNs. We identify a key cause of this performance gap: adaptivity in pre-conditioners, which limits the optimizer's ability to adapt to diverse optimization landscapes. To address this, we propose Anon (Adaptivity Non-restricted Optimizer with Novel convergence technique), a novel optimizer with continuously tunable adaptivity in R, allowing it to interpolate between SGD-like and Adam-like behaviors and even extrapolate beyond both. To ensure convergence across the entire adaptivity spectrum, we introduce incremental delay update (IDU), a novel mechanism that is more flexible than AMSGrad's hard max-tracking strategy and enhances robustness to gradient noise. We theoretically establish convergence guarantees under both convex and non-convex settings. Empirically, Anon consistently outperforms state-of-the-art optimizers on representative image classification, diffusion, and language modeling tasks. These results demonstrate that adaptivity can serve as a valuable tunable design principle, and Anon provides the first unified and reliable framework capable of bridging the gap between classical and modern optimizers and surpassing their advantageous properties.