FractalPINN-Flow: A Fractal-Inspired Network for Unsupervised Optical Flow Estimation with Total Variation Regularization

📄 arXiv: 2509.08670v1 📥 PDF

作者: Sara Behnamian, Rasoul Khaksarinezhad, Andreas Langer

分类: cs.CV

发布日期: 2025-09-10


💡 一句话要点

提出FractalPINN-Flow,一种基于分形网络的无监督光流估计方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 光流估计 无监督学习 分形网络 全变分正则化 深度学习 计算机视觉

📋 核心要点

  1. 传统光流估计方法依赖大量标注数据,且难以捕捉高分辨率图像中的复杂运动。
  2. FractalPINN-Flow利用分形变形网络递归结构,无需标注即可学习光流,并结合TV正则化保证平滑性。
  3. 实验表明,该方法在高分辨率数据和低标注场景下表现出色,能生成准确且平滑的光流场。

📝 摘要(中文)

本文提出了一种名为FractalPINN-Flow的无监督深度学习框架,用于稠密光流估计,该框架直接从连续的灰度帧中学习,无需ground truth。其架构核心是分形变形网络(FDN),这是一个受分形几何和自相似性启发的递归编码器-解码器。与传统的具有顺序下采样的CNN不同,FDN使用重复的编码器-解码器嵌套与跳跃连接,以捕获细粒度的细节和长程运动模式。训练目标基于使用全变分(TV)正则化的经典变分公式。具体来说,我们最小化一个能量泛函,该泛函结合了$L^1$和$L^2$数据保真项以强制亮度恒定性,以及一个TV项,以促进空间平滑性和相干流场。在合成和基准数据集上的实验表明,FractalPINN-Flow产生准确、平滑和边缘保持的光流场。该模型对于高分辨率数据和注释有限的场景尤其有效。

🔬 方法详解

问题定义:论文旨在解决无监督条件下的稠密光流估计问题。现有方法要么依赖大量标注数据,成本高昂;要么在处理高分辨率图像时,难以捕捉细微的运动细节和长程依赖关系,导致光流估计精度下降,且容易产生噪声。

核心思路:论文的核心思路是利用分形几何的自相似性,设计一种递归式的网络结构,即分形变形网络(FDN)。通过重复嵌套的编码器-解码器结构,网络能够同时捕捉图像中的局部细节和全局运动模式,从而提高光流估计的准确性和鲁棒性。此外,结合全变分(TV)正则化,可以有效抑制噪声,保证光流场的平滑性。

技术框架:FractalPINN-Flow的整体框架包括一个分形变形网络(FDN)和一个基于变分法的损失函数。FDN接收连续的灰度图像帧作为输入,输出稠密光流场。损失函数由数据保真项(L1和L2范数)和TV正则化项组成。数据保真项用于约束光流场满足亮度恒定性假设,TV正则化项用于保证光流场的空间平滑性。整个网络通过最小化损失函数进行端到端训练。

关键创新:该论文的关键创新在于提出了分形变形网络(FDN)。与传统的卷积神经网络(CNN)相比,FDN采用递归式的编码器-解码器结构,能够更好地捕捉图像中的多尺度特征和长程依赖关系。这种结构使得网络能够同时关注图像的局部细节和全局运动模式,从而提高光流估计的准确性和鲁棒性。此外,无监督学习方式避免了对大量标注数据的依赖。

关键设计:FDN的关键设计包括:1) 递归嵌套的编码器-解码器结构,通过重复的下采样和上采样操作,提取多尺度特征;2) 跳跃连接,将编码器中的特征图传递到解码器中,保留更多的细节信息;3) 全变分(TV)正则化,通过约束光流场的梯度,保证其空间平滑性。损失函数采用L1和L2范数的组合,以提高对光照变化和噪声的鲁棒性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在合成和基准数据集上进行了实验,结果表明FractalPINN-Flow能够生成准确、平滑和边缘保持的光流场。尤其是在高分辨率数据和注释有限的场景下,该模型表现出色。具体的性能数据和对比基线未知,但论文强调了其在无监督光流估计方面的优势。

🎯 应用场景

该研究成果可应用于自动驾驶、视频监控、机器人导航等领域。在自动驾驶中,光流估计可以帮助车辆感知周围环境的运动信息,从而做出更准确的决策。在视频监控中,光流估计可以用于检测异常行为和跟踪目标。在机器人导航中,光流估计可以帮助机器人理解周围环境,从而实现自主导航。该方法无需标注数据,降低了应用成本,具有广阔的应用前景。

📄 摘要(原文)

We present FractalPINN-Flow, an unsupervised deep learning framework for dense optical flow estimation that learns directly from consecutive grayscale frames without requiring ground truth. The architecture centers on the Fractal Deformation Network (FDN) - a recursive encoder-decoder inspired by fractal geometry and self-similarity. Unlike traditional CNNs with sequential downsampling, FDN uses repeated encoder-decoder nesting with skip connections to capture both fine-grained details and long-range motion patterns. The training objective is based on a classical variational formulation using total variation (TV) regularization. Specifically, we minimize an energy functional that combines $L^1$ and $L^2$ data fidelity terms to enforce brightness constancy, along with a TV term that promotes spatial smoothness and coherent flow fields. Experiments on synthetic and benchmark datasets show that FractalPINN-Flow produces accurate, smooth, and edge-preserving optical flow fields. The model is especially effective for high-resolution data and scenarios with limited annotations.