CamFlow+: Hybrid Motion Bases for 2D Camera Motion Estimation with Stabilization Applications

📄 arXiv: 2606.05915v1 📥 PDF

作者: Haipeng Li, Zhen Liu, Zhanglei Yang, Hai Jiang, Tianhao Zhou, Zhengzhe Liu, Ping Tan, Bing Zeng, Shuaicheng Liu

分类: cs.CV

发布日期: 2026-06-04

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出CamFlow+以解决2D相机运动估计中的平面假设问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 相机运动估计 视频稳定化 深度感知 混合基础 计算机视觉 计算摄影 动态场景分析

📋 核心要点

  1. 现有的单应性方法在处理相机平移和深度变化时表现不佳,限制了其在复杂场景中的应用。
  2. CamFlow+通过混合基础框架,结合多种运动基础,直接在密集流空间中进行2D相机运动估计,放宽了单平面假设。
  3. 实验结果表明,CamFlow+在GHOF-Cam基准测试中显著提高了相机运动估计的精度,并在用户研究中获得最佳稳定性偏好率。

📝 摘要(中文)

估计2D相机运动是计算机视觉和计算摄影的基础。现有的基于单应性的算法在平面场景或纯旋转中表现良好,但在相机平移、深度变化和局部视差方面存在困难。本文提出了CamFlow+,一种混合基础框架,直接在密集流空间中表示2D相机运动。CamFlow+结合了基于单应性的物理基础、从单应性流中采样的随机基础以及基于深度和相机内参的深度平移基础,放宽了单平面约束,同时保持相机运动的规律性。通过引入深度感知的平滑项,进一步规范了连续深度区域中的平移引起的视差,同时保留了深度边界附近的运动变化。实验表明,CamFlow+在稀疏和密集相机运动估计中均有显著提升,并在数字视频稳定化中改善了全局和局部稳定性。

🔬 方法详解

问题定义:本文旨在解决现有基于单应性的方法在复杂场景中对相机运动估计的局限性,尤其是在相机平移、深度变化和局部视差方面的不足。

核心思路:CamFlow+提出了一种混合基础框架,结合了物理基础、随机基础和深度平移基础,直接在密集流空间中表示相机运动,从而放宽了单平面假设,增强了模型的灵活性和准确性。

技术框架:该框架包括三个主要模块:1) 基于单应性的物理基础;2) 从单应性流中采样的随机基础;3) 基于深度和相机内参的深度平移基础。通过这些模块的结合,CamFlow+能够有效处理复杂的相机运动。

关键创新:CamFlow+的核心创新在于其混合基础的设计,能够同时考虑多种运动模式,克服了传统方法对单一平面的依赖,从而提高了相机运动估计的准确性和鲁棒性。

关键设计:在模型设计中,采用了深度感知的平滑项,以规范化连续深度区域中的视差,同时保留深度边界附近的运动变化。此外,模型的损失函数设计考虑了不同运动模式的平衡,确保了训练的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在GHOF-Cam基准测试中,CamFlow+显著提升了相机运动估计的精度,尤其在处理动态物体和复杂场景时表现优异。此外,在用户研究中,CamFlow+在数字视频稳定化中实现了最佳的全局和局部稳定性,获得了最高的用户偏好率。

🎯 应用场景

CamFlow+的研究成果在计算机视觉和计算摄影领域具有广泛的应用潜力,尤其是在视频稳定化、运动捕捉和增强现实等场景中。其改进的相机运动估计能力可以为动态场景分析和后期处理提供更为精确的基础,推动相关技术的发展和应用。

📄 摘要(原文)

Estimating 2D camera motion is fundamental to computer vision and computational photography. Existing homography-based methods work well for planar scenes or pure rotation, but struggle with camera translation, depth variation, and local parallax; local homography and mesh-based models improve flexibility but still rely on piecewise planar assumptions. We introduce CamFlow+, a hybrid-basis framework that represents 2D camera motion directly in dense-flow space. CamFlow+ combines homography-derived physical bases, stochastic bases sampled from homography flows, and depth-translational bases derived from depth and camera intrinsics, relaxing the single-plane constraint while preserving camera-motion regularity. A depth-aware smoothness term further regularizes translation-induced parallax in continuous-depth regions while preserving motion changes near depth boundaries. We evaluate CamFlow+ on GHOF-Cam, a camera-motion benchmark that masks out dynamic objects and ill-posed occlusion regions in an optical-flow benchmark to isolate camera-induced motion. Experiments show that CamFlow+ improves sparse and dense camera-motion estimation. In digital video stabilization, CamFlow+ also improves global and local stability, achieving the best top-1 preference rate in a blind user study. Code and datasets will be available on the project page: https://lhaippp.github.io/CamFlow+.