FractalPINN-Flow: A Fractal-Inspired Network for Unsupervised Optical Flow Estimation with Total Variation Regularization

作者: Sara Behnamian, Rasoul Khaksarinezhad, Andreas Langer

分类: cs.CV

发布日期: 2025-09-10

💡 一句话要点

提出FractalPINN-Flow，一种基于分形网络的无监督光流估计方法。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 光流估计 无监督学习 分形网络 全变分正则化 深度学习 计算机视觉

📋 核心要点

传统光流估计方法依赖大量标注数据，且难以捕捉高分辨率图像中的复杂运动。
FractalPINN-Flow利用分形变形网络递归结构，无需标注即可学习光流，并结合TV正则化保证平滑性。
实验表明，该方法在高分辨率数据和低标注场景下表现出色，能生成准确且平滑的光流场。

📝 摘要（中文）

本文提出了一种名为FractalPINN-Flow的无监督深度学习框架，用于稠密光流估计，该框架直接从连续的灰度帧中学习，无需ground truth。其架构核心是分形变形网络(FDN)，这是一个受分形几何和自相似性启发的递归编码器-解码器。与传统的具有顺序下采样的CNN不同，FDN使用重复的编码器-解码器嵌套与跳跃连接，以捕获细粒度的细节和长程运动模式。训练目标基于使用全变分(TV)正则化的经典变分公式。具体来说，我们最小化一个能量泛函，该泛函结合了$L^1$和$L^2$数据保真项以强制亮度恒定性，以及一个TV项，以促进空间平滑性和相干流场。在合成和基准数据集上的实验表明，FractalPINN-Flow产生准确、平滑和边缘保持的光流场。该模型对于高分辨率数据和注释有限的场景尤其有效。

🔬 方法详解

问题定义：论文旨在解决无监督条件下的稠密光流估计问题。现有方法要么依赖大量标注数据，成本高昂；要么在处理高分辨率图像时，难以捕捉细微的运动细节和长程依赖关系，导致光流估计精度下降，且容易产生噪声。

核心思路：论文的核心思路是利用分形几何的自相似性，设计一种递归式的网络结构，即分形变形网络(FDN)。通过重复嵌套的编码器-解码器结构，网络能够同时捕捉图像中的局部细节和全局运动模式，从而提高光流估计的准确性和鲁棒性。此外，结合全变分(TV)正则化，可以有效抑制噪声，保证光流场的平滑性。

技术框架：FractalPINN-Flow的整体框架包括一个分形变形网络(FDN)和一个基于变分法的损失函数。FDN接收连续的灰度图像帧作为输入，输出稠密光流场。损失函数由数据保真项（L1和L2范数）和TV正则化项组成。数据保真项用于约束光流场满足亮度恒定性假设，TV正则化项用于保证光流场的空间平滑性。整个网络通过最小化损失函数进行端到端训练。

关键创新：该论文的关键创新在于提出了分形变形网络(FDN)。与传统的卷积神经网络(CNN)相比，FDN采用递归式的编码器-解码器结构，能够更好地捕捉图像中的多尺度特征和长程依赖关系。这种结构使得网络能够同时关注图像的局部细节和全局运动模式，从而提高光流估计的准确性和鲁棒性。此外，无监督学习方式避免了对大量标注数据的依赖。

关键设计：FDN的关键设计包括：1) 递归嵌套的编码器-解码器结构，通过重复的下采样和上采样操作，提取多尺度特征；2) 跳跃连接，将编码器中的特征图传递到解码器中，保留更多的细节信息；3) 全变分(TV)正则化，通过约束光流场的梯度，保证其空间平滑性。损失函数采用L1和L2范数的组合，以提高对光照变化和噪声的鲁棒性。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

论文在合成和基准数据集上进行了实验，结果表明FractalPINN-Flow能够生成准确、平滑和边缘保持的光流场。尤其是在高分辨率数据和注释有限的场景下，该模型表现出色。具体的性能数据和对比基线未知，但论文强调了其在无监督光流估计方面的优势。

🎯 应用场景

该研究成果可应用于自动驾驶、视频监控、机器人导航等领域。在自动驾驶中，光流估计可以帮助车辆感知周围环境的运动信息，从而做出更准确的决策。在视频监控中，光流估计可以用于检测异常行为和跟踪目标。在机器人导航中，光流估计可以帮助机器人理解周围环境，从而实现自主导航。该方法无需标注数据，降低了应用成本，具有广阔的应用前景。

📄 摘要（原文）

We present FractalPINN-Flow, an unsupervised deep learning framework for dense optical flow estimation that learns directly from consecutive grayscale frames without requiring ground truth. The architecture centers on the Fractal Deformation Network (FDN) - a recursive encoder-decoder inspired by fractal geometry and self-similarity. Unlike traditional CNNs with sequential downsampling, FDN uses repeated encoder-decoder nesting with skip connections to capture both fine-grained details and long-range motion patterns. The training objective is based on a classical variational formulation using total variation (TV) regularization. Specifically, we minimize an energy functional that combines $L^1$ and $L^2$ data fidelity terms to enforce brightness constancy, along with a TV term that promotes spatial smoothness and coherent flow fields. Experiments on synthetic and benchmark datasets show that FractalPINN-Flow produces accurate, smooth, and edge-preserving optical flow fields. The model is especially effective for high-resolution data and scenarios with limited annotations.

FractalPINN-Flow: A Fractal-Inspired Network for Unsupervised Optical Flow Estimation with Total Variation Regularization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理