THFM: A Unified Video Foundation Model for 4D Human Perception and Beyond

📄 arXiv: 2603.25892v1 📥 PDF

作者: Letian Wang, Andrei Zanfir, Eduard Gabriel Bazavan, Misha Andriluka, Cristian Sminchisescu

分类: cs.CV

发布日期: 2026-03-26


💡 一句话要点

提出THFM:一个统一的视频基础模型,用于4D人体感知及其他任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频基础模型 人体感知 扩散模型 多任务学习 合成数据 4D感知 文本提示 统一模型

📋 核心要点

  1. 现有方法在处理多任务人体感知时通常需要多个专用模型,效率较低且泛化能力受限。
  2. THFM利用预训练的文本到视频扩散模型,通过微调和增加可学习token,实现单模型多任务感知。
  3. 实验表明,THFM仅使用合成数据训练,即可在多个真实世界基准上达到或超越SOTA专用模型。

📝 摘要(中文)

本文提出THFM,一个统一的视频基础模型,专注于以人为中心的感知任务。该模型在单一架构中同时处理密集任务(深度、法线、分割、稠密姿态)和稀疏任务(2D/3D关键点估计)。THFM源自预训练的文本到视频扩散模型,被改造为单次前向传播的感知模型,并增加了可学习的token用于稀疏预测。通过文本提示的调节,该统一模型能够执行各种感知任务。值得注意的是,尽管仅在合成数据上训练(即没有在真实世界或特定基准数据集上训练),我们的模型在各种基准测试中达到或超过了最先进的专用模型。我们进一步强调了模型有趣的涌现特性,这归因于底层基于扩散的视频表示。例如,在场景中仅包含单个行人的视频上训练的模型可以泛化到多个人物以及拟人角色和动物等其他对象类别——这是过去未曾展示的能力。

🔬 方法详解

问题定义:现有的人体感知方法通常针对特定任务设计专用模型,例如深度估计、姿态估计、分割等。这些方法需要针对每个任务单独训练,计算成本高昂,且难以实现跨任务的知识共享和泛化。此外,真实数据的标注成本很高,限制了模型的训练规模和性能。

核心思路:THFM的核心思路是利用预训练的文本到视频扩散模型强大的视频表征能力,将其转化为一个统一的感知模型。通过文本提示调节,模型可以灵活地执行不同的感知任务。此外,仅使用合成数据进行训练,可以避免对真实数据的依赖,降低训练成本。

技术框架:THFM的整体架构包括以下几个主要模块:1) 预训练的文本到视频扩散模型:作为THFM的基础,提供强大的视频表征能力。2) 任务特定头:用于将视频表征映射到不同的感知任务,例如深度估计、姿态估计等。3) 可学习的token:用于稀疏预测任务,例如2D/3D关键点估计。整个流程是,输入视频帧和文本提示,经过扩散模型提取特征,然后通过任务特定头和可学习token进行预测。

关键创新:THFM最重要的技术创新点在于将预训练的文本到视频扩散模型应用于人体感知任务,并将其转化为一个统一的感知模型。与现有方法相比,THFM无需针对每个任务单独训练模型,而是通过文本提示调节,实现单模型多任务感知。此外,THFM仅使用合成数据进行训练,即可在真实世界数据上取得良好的性能,这表明了扩散模型强大的泛化能力。

关键设计:THFM的关键设计包括:1) 使用预训练的文本到视频扩散模型作为基础,保证了模型具有强大的视频表征能力。2) 引入可学习的token,用于稀疏预测任务,例如2D/3D关键点估计。3) 使用文本提示调节模型,实现单模型多任务感知。4) 损失函数包括针对不同任务的损失函数,例如深度估计的L1损失、姿态估计的MSE损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

THFM在多个基准测试中取得了显著的成果。例如,在人体姿态估计任务中,THFM在Human3.6M数据集上取得了与SOTA模型相当的性能,并且仅使用合成数据进行训练。更令人惊讶的是,THFM在仅使用单人视频训练后,能够泛化到多人场景以及其他对象类别,例如拟人角色和动物,这表明了THFM具有强大的泛化能力。

🎯 应用场景

THFM具有广泛的应用前景,例如虚拟现实/增强现实、人机交互、自动驾驶、智能监控等领域。它可以用于构建更智能、更高效的人体感知系统,例如用于虚拟角色的动作捕捉、自动驾驶车辆的行人检测和跟踪、智能监控系统中的异常行为检测等。未来,THFM还可以扩展到其他类型的感知任务,例如物体检测、场景理解等。

📄 摘要(原文)

We present THFM, a unified video foundation model for human-centric perception that jointly addresses dense tasks (depth, normals, segmentation, dense pose) and sparse tasks (2d/3d keypoint estimation) within a single architecture. THFM is derived from a pretrained text-to-video diffusion model, repurposed as a single-forward-pass perception model and augmented with learnable tokens for sparse predictions. Modulated by the text prompt, our single unified model is capable of performing various perception tasks. Crucially, our model is on-par or surpassing state-of-the-art specialized models on a variety of benchmarks despite being trained exclusively on synthetic data (i.e.~without training on real-world or benchmark specific data). We further highlight intriguing emergent properties of our model, which we attribute to the underlying diffusion-based video representation. For example, our model trained on videos with a single human in the scene generalizes to multiple humans and other object classes such as anthropomorphic characters and animals -- a capability that hasn't been demonstrated in the past.