OpenHuman4D: Open-Vocabulary 4D Human Parsing

📄 arXiv: 2507.09880v2 📥 PDF

作者: Keito Suzuki, Bang Du, Runfa Blark Li, Kunyao Chen, Lei Wang, Peng Liu, Ning Bi, Truong Nguyen

分类: cs.CV

发布日期: 2025-07-14 (更新: 2025-07-26)

备注: BMVC 2025


💡 一句话要点

提出OpenHuman4D框架,实现快速、开放词汇的4D人体解析。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 4D人体解析 开放词汇 视频对象跟踪 掩码分割 时空建模

📋 核心要点

  1. 现有3D人体解析方法依赖封闭数据集,推理时间长,限制了其在动态场景中的应用。
  2. OpenHuman4D利用掩码跟踪建立时空对应,结合掩码验证和4D掩码融合,实现高效开放词汇解析。
  3. 实验表明,该方法在4D人体解析任务中有效且灵活,推理速度相比现有技术提升显著。

📝 摘要(中文)

本文提出了一种新的4D人体解析框架,旨在解决现有方法依赖于封闭数据集和推理时间过长的问题,从而扩展其在虚拟现实和扩展现实应用中的适用性。该框架通过减少推理时间并引入开放词汇能力,同时应对了这些挑战。该方法基于最先进的开放词汇3D人体解析技术,并将其扩展到以人为中心的4D视频,主要创新包括:1) 采用基于掩码的视频对象跟踪,高效地建立空间和时间对应关系,避免了对所有帧进行分割;2) 设计了一个新颖的掩码验证模块,用于管理新目标的识别和减轻跟踪失败;3) 提出了一个4D掩码融合模块,集成了记忆条件注意力机制和logits均衡化,以实现鲁棒的嵌入融合。大量实验表明,该方法在4D人体解析任务中具有有效性和灵活性,与之前最先进的仅限于解析固定类别的方法相比,实现了高达93.3%的加速。

🔬 方法详解

问题定义:现有的人体部件分割方法主要依赖于封闭数据集,即只能识别预先定义好的类别,无法处理未知的部件。此外,对于4D人体视频,逐帧分割的计算量巨大,推理时间过长,难以满足实时性要求。这些问题限制了其在虚拟现实、增强现实等动态场景中的应用。

核心思路:本文的核心思路是利用视频对象跟踪技术来减少需要分割的帧数,并结合开放词汇的3D人体解析方法,实现对4D人体视频的高效、开放词汇的部件分割。通过跟踪关键帧的分割结果,并将信息传递到其他帧,避免了对每一帧都进行完整的分割计算。

技术框架:OpenHuman4D框架主要包含三个模块:1) 基于掩码的视频对象跟踪模块,用于建立视频帧之间的时空对应关系;2) 掩码验证模块,用于检测和处理跟踪失败的情况,并识别新的目标;3) 4D掩码融合模块,用于将不同帧的分割结果进行融合,生成最终的4D人体部件分割结果。整体流程是首先利用3D开放词汇解析方法对关键帧进行分割,然后利用视频对象跟踪模块将分割结果传播到其他帧,再通过掩码验证模块进行修正,最后利用4D掩码融合模块生成最终结果。

关键创新:该方法的主要创新在于将视频对象跟踪技术与开放词汇的3D人体解析方法相结合,从而实现了对4D人体视频的高效、开放词汇的部件分割。此外,掩码验证模块和4D掩码融合模块也是针对4D人体解析任务的专门设计,能够有效地处理跟踪失败和信息融合的问题。

关键设计:掩码验证模块使用了一种基于置信度的策略来判断跟踪结果的可靠性,并根据置信度决定是否需要重新进行分割。4D掩码融合模块使用了记忆条件注意力机制,用于学习不同帧之间的依赖关系,并利用logits均衡化技术来平衡不同类别的预测概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OpenHuman4D框架在4D人体解析任务中取得了显著的性能提升。与现有最先进的方法相比,该方法实现了高达93.3%的加速,同时保持了较高的分割精度。此外,该方法还能够处理开放词汇的部件分割任务,即可以识别未在训练集中出现的部件,这大大扩展了其应用范围。

🎯 应用场景

OpenHuman4D框架可广泛应用于虚拟现实、增强现实、人机交互、运动分析等领域。例如,在虚拟试衣应用中,可以准确识别用户身体的各个部位,并进行服装的虚拟试穿。在运动分析中,可以对运动员的动作进行精细的分析和评估。该研究为动态场景下的人体理解提供了新的技术方案,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Understanding dynamic 3D human representation has become increasingly critical in virtual and extended reality applications. However, existing human part segmentation methods are constrained by reliance on closed-set datasets and prolonged inference times, which significantly restrict their applicability. In this paper, we introduce the first 4D human parsing framework that simultaneously addresses these challenges by reducing the inference time and introducing open-vocabulary capabilities. Building upon state-of-the-art open-vocabulary 3D human parsing techniques, our approach extends the support to 4D human-centric video with three key innovations: 1) We adopt mask-based video object tracking to efficiently establish spatial and temporal correspondences, avoiding the necessity of segmenting all frames. 2) A novel Mask Validation module is designed to manage new target identification and mitigate tracking failures. 3) We propose a 4D Mask Fusion module, integrating memory-conditioned attention and logits equalization for robust embedding fusion. Extensive experiments demonstrate the effectiveness and flexibility of the proposed method on 4D human-centric parsing tasks, achieving up to 93.3% acceleration compared to the previous state-of-the-art method, which was limited to parsing fixed classes.