OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction

📄 arXiv: 2604.21575v1 📥 PDF

作者: Zeyu Cai, Yuliang Xiu, Renke Wang, Zhijing Shao, Xiaoben Li, Siyuan Yu, Chao Xu, Yang Liu, Baigui Sun, Jian Yang, Zhenyu Zhang

分类: cs.CV, cs.GR

发布日期: 2026-04-23

备注: Project Page: https://zcai0612.github.io/OmniFit/


💡 一句话要点

OmniFit:通过尺度无关的稠密地标预测实现多模态3D人体拟合

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D人体拟合 多模态学习 尺度不变性 稠密地标预测 Transformer SMPL-X 计算机视觉

📋 核心要点

  1. 现有3D人体拟合方法通常依赖于单一模态输入或多视图图像,且需要已知的尺度信息,这在实际应用中存在局限性,尤其是在AI生成的资产中。
  2. OmniFit的核心思想是利用条件Transformer解码器,直接将表面点映射到稠密人体地标,并结合可选的图像适配器来处理多模态输入,实现尺度无关的拟合。
  3. 实验结果表明,OmniFit在多个基准测试中显著优于现有方法,并在CAPE和4D-DRESS基准上达到了毫米级的精度,尤其是在服装场景下。

📝 摘要(中文)

本文提出OmniFit,一种能够无缝处理多种多模态输入(包括完整扫描、部分深度观测和图像捕获)的3D人体模型拟合方法,同时对真实和合成资产保持尺度不变性。核心创新在于一个简单而有效的条件Transformer解码器,它直接将表面点映射到稠密人体地标,然后用于SMPL-X参数拟合。此外,一个可选的即插即用图像适配器融入视觉线索,以补偿缺失的几何信息。论文还引入了一个专门的尺度预测器,用于将对象重新缩放到标准人体比例。OmniFit在日常和宽松服装场景中显著优于现有方法57.1%到80.9%。据我们所知,它是第一个超越多视图优化基线的人体拟合方法,也是第一个在CAPE和4D-DRESS基准上实现毫米级精度的方法。

🔬 方法详解

问题定义:现有3D人体模型拟合方法通常依赖于特定模态的数据(如点云或多视图图像),并且需要预先知道场景的尺度信息。这限制了它们在处理多模态数据和未知尺度场景下的应用,尤其是在处理AI生成的、可能存在尺度扭曲的3D人体资产时,性能会显著下降。

核心思路:OmniFit的核心思路是学习一个尺度无关的稠密地标预测器,该预测器能够从多模态输入(包括点云、深度图和图像)中预测人体表面的稠密地标位置。这些地标位置随后被用于拟合SMPL-X人体模型,从而实现对3D人体的重建。通过直接预测地标,该方法避免了对输入数据尺度的依赖,从而实现了尺度不变性。

技术框架:OmniFit的整体框架包括三个主要模块:多模态输入处理模块、条件Transformer解码器和尺度预测器。多模态输入处理模块负责将不同模态的数据(如点云、深度图和图像)转换为统一的特征表示。条件Transformer解码器是核心模块,它接收表面点作为输入,并预测对应的稠密人体地标。可选的图像适配器用于融合视觉信息,以弥补几何信息的缺失。尺度预测器则用于预测输入数据的尺度,并将其缩放到标准人体比例。

关键创新:OmniFit的关键创新在于其尺度无关的稠密地标预测方法。与现有方法相比,OmniFit不需要预先知道输入数据的尺度信息,并且能够处理多种模态的输入数据。此外,条件Transformer解码器的设计使得OmniFit能够有效地学习表面点与人体地标之间的映射关系。

关键设计:条件Transformer解码器使用Transformer架构,将表面点作为query,并使用多模态输入处理模块提取的特征作为key和value。损失函数包括地标预测损失和SMPL-X参数拟合损失。尺度预测器使用一个简单的回归网络,预测输入数据的尺度因子。图像适配器使用卷积神经网络提取图像特征,并将其与几何特征融合。

📊 实验亮点

OmniFit在CAPE和4D-DRESS基准测试中取得了显著的性能提升,在日常服装和宽松服装场景中分别超越现有方法57.1%和80.9%。值得注意的是,OmniFit是第一个超越多视图优化基线的人体拟合方法,并且在CAPE和4D-DRESS基准上实现了毫米级的精度,这表明其在复杂服装场景下的拟合能力。

🎯 应用场景

OmniFit在虚拟现实、增强现实、游戏开发、服装设计和AI生成内容等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身、实现精确的服装试穿、以及自动化生成具有真实人体比例的3D模型。该研究还有助于提升AI生成内容的质量和真实感,并为相关领域的研究提供新的思路。

📄 摘要(原文)

Fitting an underlying body model to 3D clothed human assets has been extensively studied, yet most approaches focus on either single-modal inputs such as point clouds or multi-view images alone, often requiring a known metric scale. This constraint is frequently impractical, especially for AI-generated assets where scale distortion is common. We propose OmniFit, a method that can seamlessly handle diverse multi-modal inputs, including full scans, partial depth observations, and image captures, while remaining scale-agnostic for both real and synthetic assets. Our key innovation is a simple yet effective conditional transformer decoder that directly maps surface points to dense body landmarks, which are then used for SMPL-X parameter fitting. In addition, an optional plug-and-play image adapter incorporates visual cues to compensate for missing geometric information. We further introduce a dedicated scale predictor that rescales subjects to canonical body proportions. OmniFit substantially outperforms state-of-the-art methods by 57.1 to 80.9 percent across daily and loose clothing scenarios. To the best of our knowledge, it is the first body fitting method to surpass multi-view optimization baselines and the first to achieve millimeter-level accuracy on the CAPE and 4D-DRESS benchmarks.