H-Flow: Self-supervised Human Scene Flow via Physics-inspired Joint Multi-modal Learning

📄 arXiv: 2605.22629v1 📥 PDF

作者: Zhanbo Huang, Xiaoming Liu, Yu Kong

分类: cs.CV

发布日期: 2026-05-21

备注: 19 pages, 7 figures, 4 tables


💡 一句话要点

提出H-Flow,通过物理启发的自监督多模态学习实现人体场景流估计。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体场景流 自监督学习 多模态学习 物理先验 Transformer 单目视频 人体姿态估计

📋 核心要点

  1. 参数化人体模型虽然能捕捉全局姿态,但无法表示服装和软组织的非刚性表面动态。
  2. H-Flow通过物理启发的跨模态学习,从单目视频中联合预测姿态、深度和密集人体场景流。
  3. H-Flow在标准数据集上超越了现有方法,并提出了新的高保真合成数据集DynAct4D。

📝 摘要(中文)

本文提出H-Flow,一种密集的人体场景流估计方法,旨在捕捉骨骼运动学和表面形变。该方法使用统一的多头Transformer从单目视频中估计场景流,并联合预测姿态和深度作为辅助输出。由于缺乏监督,本文没有采用难以获取的标签,而是将网络锚定在人体运动的物理特性上,将几何、结构和生物力学先验编码为跨模态训练目标。此外,本文还引入了DynAct4D,一个高保真合成基准,提供跨不同主体、服装和运动的密集流标注。在标准基准测试中,H-Flow优于场景流和参数化基线,并能零样本泛化到真实视频。

🔬 方法详解

问题定义:现有方法在人体场景流估计中存在局限性。参数化人体模型无法捕捉非刚性形变,而通用场景流方法在处理铰接物体时表现不佳,且难以获取像素级别的监督信息。因此,需要一种能够同时捕捉骨骼运动学和表面形变的密集人体场景流估计方法,并解决缺乏监督的问题。

核心思路:H-Flow的核心思路是利用人体运动的物理特性作为监督信号,通过自监督学习的方式训练网络。具体来说,将几何、结构和生物力学先验知识编码为跨模态训练目标,从而约束网络的学习过程,使其能够更准确地估计人体场景流。同时,联合预测姿态和深度,利用它们之间的内在联系来提高整体性能。

技术框架:H-Flow采用统一的多头Transformer架构,输入为单目视频帧,输出包括密集人体场景流、人体姿态和深度图。整个框架可以看作是一个多任务学习模型,其中场景流估计是主要任务,姿态和深度估计是辅助任务。通过共享特征表示,可以实现跨模态信息的有效融合。

关键创新:H-Flow的关键创新在于利用物理先验进行自监督学习。不同于传统的监督学习方法,H-Flow不需要密集的像素级别标注,而是通过设计合适的损失函数,将人体运动的物理规律融入到训练过程中。此外,提出的DynAct4D数据集为人体场景流的研究提供了新的基准。

关键设计:H-Flow的关键设计包括:1) 多头Transformer架构,用于提取视频帧中的时空特征;2) 跨模态损失函数,用于编码几何、结构和生物力学先验;3) 联合姿态和深度预测,利用它们之间的互补信息;4) DynAct4D数据集,提供高保真的人体场景流标注。具体的损失函数可能包括几何一致性损失、结构保持损失和生物力学约束损失等。网络结构的具体参数设置(如Transformer的层数、头数等)未知,可能需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

H-Flow在标准人体场景流数据集上取得了显著的性能提升,超越了现有的场景流和参数化人体模型方法。更重要的是,H-Flow具有良好的泛化能力,可以零样本应用于真实世界的视频,无需针对特定场景进行微调。DynAct4D数据集的发布也为该领域的研究提供了新的资源。

🎯 应用场景

H-Flow在虚拟现实、增强现实、人机交互、运动分析和动画制作等领域具有广泛的应用前景。它可以用于创建更逼真的人体动画,实现更自然的人机交互,以及进行更精确的运动分析。此外,H-Flow还可以用于服装设计和虚拟试穿等应用,具有重要的商业价值。

📄 摘要(原文)

Parametric human models capture global pose but cannot represent the non-rigid surface dynamics of clothing and soft tissue. Generic scene flow estimates dense motion but breaks down on articulated bodies, where pixel-level supervision is also intractable to acquire. We introduce H-Flow, a dense human scene flow that captures both skeletal kinematics and surface deformation. A unified multi-head transformer estimates flow from monocular video, jointly predicting pose and depth as companion outputs. The challenge lies in the lack of supervision. In place of unattainable labels, we anchor the network in the physics of human motion, encoding geometric, structural, and biomechanical priors as cross-modal training objectives. We further introduce DynAct4D, a high-fidelity synthetic benchmark providing dense flow annotations across diverse subjects, garments, and motions. On standard benchmarks, H-Flow outperforms scene-flow and parametric baselines, and generalizes zero-shot to in-the-wild video. Code, models, and the DynAct4D benchmark will be released upon publication