Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos

📄 arXiv: 2504.04837v2 📥 PDF

作者: Zhi Zuo, Chenyi Zhuang, Pan Gao, Jie Qin, Hao Feng, Nicu Sebe

分类: cs.CV

发布日期: 2025-04-07 (更新: 2025-05-20)

备注: 11 pages, 7 figures


💡 一句话要点

Uni4D:面向点云视频的统一自监督学习框架,解耦几何与语义信息

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 点云视频 自监督学习 掩码自编码器 4D表示学习 时空表示 几何解耦 语义对齐

📋 核心要点

  1. 现有方法依赖显式知识学习点云视频中的运动信息,导致学习到的表示并非最优。
  2. Uni4D通过在潜在空间对齐高级语义来学习运动,无需任何显式知识,实现更有效的运动信息提取。
  3. Uni4D在多个数据集上进行了广泛实验,结果表明其在各种4D下游任务中均优于现有方法,例如在HOI4D上动作分割精度提升了3.8%。

📝 摘要(中文)

本文提出了一种新颖的自解耦掩码自编码器(MAE),用于学习富有表现力、可区分和可迁移的4D表示,旨在解决点云视频自监督表示学习中的挑战。现有方法依赖显式知识学习运动,导致次优表示;先前的MAE框架难以弥合4D数据中低级几何和高级动态之间的差距。为克服这些限制,本文在没有任何显式知识的情况下,通过对齐潜在空间中的高级语义来学习运动。此外,引入了一种自解耦学习策略,将潜在token与几何token结合在共享解码器中,有效解耦了低级几何和高级语义。除了重建目标外,还采用了三个对齐目标来增强时间理解,包括帧级运动和视频级全局信息。预训练的编码器无需进一步微调即可区分时空表示。在MSR-Action3D、NTU-RGBD、HOI4D、NvGesture和SHREC'17上的大量实验表明,该方法在粗粒度和细粒度4D下游任务中均表现出色。值得注意的是,Uni4D在HOI4D上的动作分割准确率提高了+3.8%。

🔬 方法详解

问题定义:现有方法在点云视频的自监督表示学习中存在两个主要痛点:一是依赖显式知识(如光流)来学习运动信息,导致学习到的表示次优;二是传统的Masked AutoEncoder (MAE) 框架难以有效连接4D数据中低级几何信息和高级动态信息,限制了模型的表达能力。

核心思路:Uni4D的核心思路是设计一个自解耦的MAE框架,通过隐空间语义对齐学习运动信息,避免对显式运动知识的依赖。同时,通过自解耦学习策略,将几何token和语义token在解码器中融合,从而解耦低级几何信息和高级语义信息,提升模型对4D数据的理解能力。

技术框架:Uni4D框架主要包含编码器和解码器两部分。编码器负责将点云视频转换为潜在表示。解码器则利用自解耦学习策略,将几何token和语义token融合,并重建原始点云视频。此外,框架还包含三个对齐目标,用于增强模型对时间信息的理解,包括帧级运动对齐和视频级全局信息对齐。

关键创新:Uni4D的关键创新在于其自解耦学习策略和隐空间语义对齐方法。自解耦学习策略通过在解码器中融合几何token和语义token,有效解耦了低级几何信息和高级语义信息。隐空间语义对齐方法则通过对齐潜在空间中的高级语义来学习运动信息,避免了对显式运动知识的依赖。

关键设计:Uni4D的关键设计包括:1) 自解耦解码器结构,用于融合几何token和语义token;2) 隐空间语义对齐损失函数,用于对齐潜在空间中的高级语义;3) 帧级运动对齐损失函数和视频级全局信息对齐损失函数,用于增强模型对时间信息的理解。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Uni4D在多个4D数据集上取得了显著的性能提升。例如,在HOI4D数据集上,Uni4D的动作分割准确率提高了+3.8%。此外,实验结果表明,Uni4D预训练的编码器无需进一步微调即可区分时空表示,具有良好的泛化能力。与其他自监督学习方法相比,Uni4D在多个下游任务中均表现出更优的性能。

🎯 应用场景

Uni4D在动作识别、行为分析、人机交互等领域具有广泛的应用前景。例如,可以用于智能监控系统中,自动识别异常行为;也可以应用于虚拟现实和增强现实中,实现更自然的人机交互。此外,该方法还可以扩展到其他4D数据的表示学习,例如医学影像分析等。

📄 摘要(原文)

Self-supervised representation learning for point cloud videos remains a challenging problem with two key limitations: (1) existing methods rely on explicit knowledge to learn motion, resulting in suboptimal representations; (2) prior Masked AutoEncoder (MAE) frameworks struggle to bridge the gap between low-level geometry and high-level dynamics in 4D data. In this work, we propose a novel self-disentangled MAE for learning expressive, discriminative, and transferable 4D representations. To overcome the first limitation, we learn motion by aligning high-level semantics in the latent space \textit{without any explicit knowledge}. To tackle the second, we introduce a \textit{self-disentangled learning} strategy that incorporates the latent token with the geometry token within a shared decoder, effectively disentangling low-level geometry and high-level semantics. In addition to the reconstruction objective, we employ three alignment objectives to enhance temporal understanding, including frame-level motion and video-level global information. We show that our pre-trained encoder surprisingly discriminates spatio-temporal representation without further fine-tuning. Extensive experiments on MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, and SHREC'17 demonstrate the superiority of our approach in both coarse-grained and fine-grained 4D downstream tasks. Notably, Uni4D improves action segmentation accuracy on HOI4D by $+3.8\%$.