Learning Fourier shapes to probe the geometric world of deep neural networks
作者: Jian Wang, Yixing Yong, Haixia Bi, Lijun He, Fan Li
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-11-07
备注: 20 pages, 5 figures
💡 一句话要点
提出基于傅里叶形状的框架,用于探究深度神经网络的几何世界
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 傅里叶形状 深度神经网络 几何信息 可解释性 对抗攻击 绕数映射 形状优化 视觉识别
📋 核心要点
- 深度神经网络的研究主要集中在纹理理解上,对几何形状的理解不足,阻碍了模型对视觉世界的全面认知。
- 论文提出了一种基于傅里叶形状的框架,通过优化形状来探究深度神经网络对几何信息的理解能力。
- 实验表明,优化的形状可以作为语义载体和可解释性工具,并能构成一种新的对抗性攻击方式。
📝 摘要(中文)
本文表明,优化的形状可以作为有效的语义载体,仅凭几何信息就能产生高置信度的分类结果。此外,它们是高保真度的可解释性工具,能够精确地隔离模型中的显著区域。最后,它们构成了一种新的、可泛化的对抗性范式,能够欺骗下游视觉任务。这些成果是通过一个端到端可微框架实现的,该框架统一了强大的傅里叶级数来参数化任意形状,一个基于绕数(winding number)的映射将其转换为深度神经网络所需的像素网格,以及增强优化效率并确保物理上合理形状的信号能量约束。这项工作为探究深度神经网络的几何世界提供了一个通用的框架,并为挑战和理解机器感知开辟了新的前沿。
🔬 方法详解
问题定义:深度神经网络在视觉识别中主要关注纹理特征,而忽略了形状的几何信息。现有方法难以有效探究网络对形状的理解能力,并且缺乏针对几何形状的有效对抗攻击手段。
核心思路:论文的核心思路是利用可优化的形状作为探针,通过观察网络对这些形状的反应,来理解网络如何处理几何信息。通过优化形状,使其能够最大化或最小化网络的输出,从而揭示网络对特定形状特征的敏感性。
技术框架:该框架包含三个主要模块:1) 傅里叶形状参数化:使用傅里叶级数来表示任意形状,实现形状的灵活控制和优化。2) 绕数映射:将傅里叶形状转换为像素网格,使其能够作为深度神经网络的输入。3) 信号能量约束:通过约束形状的信号能量,保证生成的形状在物理上是合理的,并提高优化效率。整个框架是端到端可微的,允许通过梯度下降等方法优化形状参数。
关键创新:最重要的创新点在于将傅里叶级数与绕数映射相结合,实现了一种可微的形状生成和优化方法。这种方法能够生成任意形状,并将其无缝地集成到深度神经网络的训练和评估流程中。与传统的基于像素的形状表示方法相比,傅里叶形状参数化具有更高的效率和灵活性。
关键设计:关键设计包括:1) 傅里叶级数的阶数选择,需要平衡形状的表达能力和计算复杂度。2) 绕数映射的实现细节,需要保证形状的平滑性和连通性。3) 信号能量约束的强度,需要防止生成过于复杂的形状,并提高优化效率。此外,损失函数的设计也至关重要,需要根据具体的任务目标进行调整,例如,最大化分类置信度或最小化目标类别概率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,优化的傅里叶形状可以作为有效的语义载体,仅凭几何信息就能使深度神经网络产生高置信度的分类结果。此外,该方法能够精确地定位模型中的显著区域,并生成有效的对抗样本,成功欺骗下游视觉任务,证明了其在可解释性和对抗攻击方面的潜力。
🎯 应用场景
该研究成果可应用于深度神经网络的可解释性分析,帮助理解网络如何利用几何信息进行视觉识别。此外,该框架还可以用于生成针对特定形状的对抗样本,评估网络的鲁棒性。未来,该方法有望扩展到其他领域,如医学图像分析、自动驾驶等,提升相关系统的安全性和可靠性。
📄 摘要(原文)
While both shape and texture are fundamental to visual recognition, research on deep neural networks (DNNs) has predominantly focused on the latter, leaving their geometric understanding poorly probed. Here, we show: first, that optimized shapes can act as potent semantic carriers, generating high-confidence classifications from inputs defined purely by their geometry; second, that they are high-fidelity interpretability tools that precisely isolate a model's salient regions; and third, that they constitute a new, generalizable adversarial paradigm capable of deceiving downstream visual tasks. This is achieved through an end-to-end differentiable framework that unifies a powerful Fourier series to parameterize arbitrary shapes, a winding number-based mapping to translate them into the pixel grid required by DNNs, and signal energy constraints that enhance optimization efficiency while ensuring physically plausible shapes. Our work provides a versatile framework for probing the geometric world of DNNs and opens new frontiers for challenging and understanding machine perception.