Subtractive Modulative Network with Learnable Periodic Activations

📄 arXiv: 2602.16337v1 📥 PDF

作者: Tiou Wang, Zhuoqian Yang, Markus Flierl, Mathieu Salzmann, Sabine Süsstrunk

分类: cs.CV, cs.LG

发布日期: 2026-02-18

备注: 4 pages, 3 figures, 3 tables

期刊: ICASSP 2026-2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于可学习周期激活的减法调制网络(SMN),用于高效隐式神经表示。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 隐式神经表示 减法合成 周期激活 调制掩码 图像重建 新视角合成 参数效率

📋 核心要点

  1. 现有隐式神经表示方法在重建精度和参数效率上存在挑战,尤其是在复杂场景中。
  2. SMN通过模拟减法合成,利用可学习的周期激活和调制掩码模块,高效生成多频谐波。
  3. 实验表明,SMN在图像重建和3D NeRF新视角合成任务中,均优于现有方法,且参数效率更高。

📝 摘要(中文)

本文提出了一种新颖的、参数高效的隐式神经表示(INR)架构,即减法调制网络(SMN),其灵感来源于经典的减法合成。SMN被设计为一个有原则的信号处理流程,包含一个可学习的周期激活层(振荡器),用于生成多频基,以及一系列调制掩码模块(滤波器),用于主动生成高阶谐波。我们为我们的设计提供了理论分析和实验验证。我们的SMN在两个图像数据集上实现了超过40dB的PSNR,在重建精度和参数效率方面均优于最先进的方法。此外,在具有挑战性的3D NeRF新视角合成任务中也观察到了一致的优势。补充材料可在https://inrainbws.github.io/smn/获取。

🔬 方法详解

问题定义:论文旨在提高隐式神经表示(INR)的重建精度和参数效率,尤其是在处理高频细节丰富的图像和3D场景时。现有的INR方法,如MLP,通常需要大量的参数才能捕捉到高频信息,导致过拟合和泛化能力下降。

核心思路:论文的核心思路是借鉴经典的减法合成技术,通过生成和调制多频信号来表示复杂的图像或3D场景。具体来说,SMN首先生成一组基频信号,然后通过可学习的滤波器(调制掩码模块)来选择和调整这些频率,从而合成目标信号。这种方法可以有效地利用参数,并更好地捕捉高频信息。

技术框架:SMN的整体架构包含两个主要模块:振荡器(Oscillator)和滤波器(Filters)。振荡器是一个可学习的周期激活层,用于生成一组多频基信号。滤波器是一系列调制掩码模块,用于对振荡器生成的信号进行调制,生成高阶谐波。整个网络通过优化振荡器和滤波器的参数,来最小化重建误差。

关键创新:SMN的关键创新在于其基于减法合成的信号处理流程,以及可学习的周期激活层和调制掩码模块。与传统的INR方法相比,SMN能够更有效地生成和控制多频信号,从而更好地捕捉高频信息。此外,SMN的参数效率更高,因为它只需要学习少量的振荡器和滤波器参数。

关键设计:振荡器使用可学习的周期激活函数,例如正弦函数或余弦函数,其频率和相位可以通过学习进行调整。滤波器使用调制掩码模块,通过学习一组权重来选择和调整振荡器生成的信号。损失函数通常是重建误差,例如均方误差(MSE)或L1损失。网络结构可以根据具体的任务进行调整,例如可以增加滤波器的数量或调整振荡器的频率范围。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SMN在图像重建任务中实现了超过40dB的PSNR,显著优于现有的INR方法。在3D NeRF新视角合成任务中,SMN也表现出了一致的优势,并且参数效率更高。实验结果表明,SMN能够有效地捕捉高频信息,并具有良好的泛化能力。

🎯 应用场景

SMN具有广泛的应用前景,包括图像和视频压缩、3D场景重建、新视角合成、医学图像分析等。其高效的参数利用率和高重建精度使其在资源受限的环境中具有优势。未来,SMN可以进一步扩展到其他领域,例如音频处理和时间序列分析。

📄 摘要(原文)

We propose the Subtractive Modulative Network (SMN), a novel, parameter-efficient Implicit Neural Representation (INR) architecture inspired by classical subtractive synthesis. The SMN is designed as a principled signal processing pipeline, featuring a learnable periodic activation layer (Oscillator) that generates a multi-frequency basis, and a series of modulative mask modules (Filters) that actively generate high-order harmonics. We provide both theoretical analysis and empirical validation for our design. Our SMN achieves a PSNR of $40+$ dB on two image datasets, comparing favorably against state-of-the-art methods in terms of both reconstruction accuracy and parameter efficiency. Furthermore, consistent advantage is observed on the challenging 3D NeRF novel view synthesis task. Supplementary materials are available at https://inrainbws.github.io/smn/.