FreSh: Frequency Shifting for Accelerated Neural Representation Learning

📄 arXiv: 2410.05050v2 📥 PDF

作者: Adam Kania, Marko Mihajlovic, Sergey Prokudin, Jacek Tabor, Przemysław Spurek

分类: cs.LG, cs.AI, stat.ML

发布日期: 2024-10-07 (更新: 2024-10-08)

备注: Code at https://github.com/gmum/FreSh/


💡 一句话要点

FreSh:通过频率偏移加速神经表示学习,避免昂贵的超参数搜索。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 隐式神经表示 频率偏移 超参数优化 频谱分析 深度学习

📋 核心要点

  1. MLP在隐式神经表示中存在低频偏差,难以捕捉高频细节,需要额外的高频嵌入或激活函数。
  2. 论文提出频率偏移(FreSh)方法,通过调整嵌入超参数,使模型初始输出频谱与目标信号频谱对齐。
  3. FreSh方法在各种神经表示任务中表现出色,性能与昂贵的超参数搜索相当,计算开销很小。

📝 摘要(中文)

隐式神经表示(INRs)作为一种强大的方法,利用多层感知机(MLP)连续表示图像、视频和3D形状等信号,近年来备受关注。然而,MLP表现出低频偏差,限制了其准确捕捉高频细节的能力。通常通过结合高频输入嵌入或专门的激活层来解决此限制。本文表明,这些嵌入和激活通常配置有平均性能良好但对于特定输入信号而言并非最优的超参数,因此需要进行代价高昂的网格搜索以确定最佳设置。我们的关键观察是,未经训练的模型输出的初始频谱与模型在给定目标信号上的最终性能密切相关。利用这一见解,我们提出频率偏移(FreSh),这是一种选择嵌入超参数的方法,使模型初始输出的频谱与目标信号的频谱对齐。我们表明,这种简单的初始化技术提高了各种神经表示方法和任务的性能,实现了与广泛的超参数扫描相当的结果,但与使用默认超参数训练单个模型相比,计算开销仅略有增加。

🔬 方法详解

问题定义:隐式神经表示(INRs)使用MLP来表示信号,但MLP存在低频偏差,难以捕捉高频细节。现有方法通常通过添加高频输入嵌入或特殊的激活函数来缓解这个问题。然而,这些方法需要针对不同的输入信号调整超参数,通常需要进行耗时的网格搜索,计算成本高昂。

核心思路:论文的核心思想是,未经训练的MLP的初始输出频谱与模型最终的性能密切相关。如果能使模型初始输出的频谱与目标信号的频谱对齐,就能加速模型的训练并提高性能。因此,论文提出了一种频率偏移(FreSh)方法,通过调整输入嵌入的超参数来实现频谱对齐。

技术框架:FreSh方法主要包含以下几个步骤:1. 计算目标信号的频谱。2. 初始化一个未经训练的MLP。3. 通过调整输入嵌入的超参数,计算MLP初始输出的频谱。4. 计算MLP初始输出频谱与目标信号频谱之间的差异。5. 选择使频谱差异最小化的超参数。6. 使用选定的超参数训练MLP。

关键创新:FreSh方法最重要的创新点在于,它利用了模型初始状态的频谱信息来指导超参数的选择,避免了盲目的网格搜索。这种方法能够显著降低计算成本,同时提高模型的性能。与现有方法相比,FreSh方法不需要进行大量的实验来寻找最佳的超参数,而是通过分析频谱信息来快速确定合适的超参数。

关键设计:FreSh方法的关键设计在于如何计算和比较频谱。论文中使用了傅里叶变换来计算信号的频谱。为了比较不同频谱之间的差异,论文使用了均方误差(MSE)作为损失函数。此外,论文还提出了一种自适应的超参数搜索策略,能够根据目标信号的特点自动调整搜索范围。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,FreSh方法在各种神经表示任务中都取得了显著的性能提升。例如,在图像表示任务中,FreSh方法能够达到与广泛的超参数扫描相当的结果,但计算开销仅略有增加。此外,FreSh方法还能够提高模型的收敛速度,减少训练时间。

🎯 应用场景

FreSh方法可以应用于各种需要使用隐式神经表示的领域,例如图像、视频和3D形状的表示与重建。该方法能够加速模型的训练,提高模型的性能,并降低计算成本。在实际应用中,可以利用FreSh方法来快速构建高质量的神经表示模型,从而实现更高效的信号处理和分析。

📄 摘要(原文)

Implicit Neural Representations (INRs) have recently gained attention as a powerful approach for continuously representing signals such as images, videos, and 3D shapes using multilayer perceptrons (MLPs). However, MLPs are known to exhibit a low-frequency bias, limiting their ability to capture high-frequency details accurately. This limitation is typically addressed by incorporating high-frequency input embeddings or specialized activation layers. In this work, we demonstrate that these embeddings and activations are often configured with hyperparameters that perform well on average but are suboptimal for specific input signals under consideration, necessitating a costly grid search to identify optimal settings. Our key observation is that the initial frequency spectrum of an untrained model's output correlates strongly with the model's eventual performance on a given target signal. Leveraging this insight, we propose frequency shifting (or FreSh), a method that selects embedding hyperparameters to align the frequency spectrum of the model's initial output with that of the target signal. We show that this simple initialization technique improves performance across various neural representation methods and tasks, achieving results comparable to extensive hyperparameter sweeps but with only marginal computational overhead compared to training a single model with default hyperparameters.