OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction

作者: Zeyu Cai, Yuliang Xiu, Renke Wang, Zhijing Shao, Xiaoben Li, Siyuan Yu, Chao Xu, Yang Liu, Baigui Sun, Jian Yang, Zhenyu Zhang

分类: cs.CV, cs.GR

发布日期: 2026-04-23

备注: Project Page: https://zcai0612.github.io/OmniFit/

💡 一句话要点

OmniFit：通过尺度无关的稠密地标预测实现多模态3D人体拟合

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 3D人体拟合 多模态学习 尺度不变性 稠密地标预测 Transformer SMPL-X 计算机视觉

📋 核心要点

现有3D人体拟合方法通常依赖于单一模态输入或多视图图像，且需要已知的尺度信息，这在实际应用中存在局限性，尤其是在AI生成的资产中。
OmniFit的核心思想是利用条件Transformer解码器，直接将表面点映射到稠密人体地标，并结合可选的图像适配器来处理多模态输入，实现尺度无关的拟合。
实验结果表明，OmniFit在多个基准测试中显著优于现有方法，并在CAPE和4D-DRESS基准上达到了毫米级的精度，尤其是在服装场景下。

📝 摘要（中文）

本文提出OmniFit，一种能够无缝处理多种多模态输入（包括完整扫描、部分深度观测和图像捕获）的3D人体模型拟合方法，同时对真实和合成资产保持尺度不变性。核心创新在于一个简单而有效的条件Transformer解码器，它直接将表面点映射到稠密人体地标，然后用于SMPL-X参数拟合。此外，一个可选的即插即用图像适配器融入视觉线索，以补偿缺失的几何信息。论文还引入了一个专门的尺度预测器，用于将对象重新缩放到标准人体比例。OmniFit在日常和宽松服装场景中显著优于现有方法57.1%到80.9%。据我们所知，它是第一个超越多视图优化基线的人体拟合方法，也是第一个在CAPE和4D-DRESS基准上实现毫米级精度的方法。

🔬 方法详解

问题定义：现有3D人体模型拟合方法通常依赖于特定模态的数据（如点云或多视图图像），并且需要预先知道场景的尺度信息。这限制了它们在处理多模态数据和未知尺度场景下的应用，尤其是在处理AI生成的、可能存在尺度扭曲的3D人体资产时，性能会显著下降。

核心思路：OmniFit的核心思路是学习一个尺度无关的稠密地标预测器，该预测器能够从多模态输入（包括点云、深度图和图像）中预测人体表面的稠密地标位置。这些地标位置随后被用于拟合SMPL-X人体模型，从而实现对3D人体的重建。通过直接预测地标，该方法避免了对输入数据尺度的依赖，从而实现了尺度不变性。

技术框架：OmniFit的整体框架包括三个主要模块：多模态输入处理模块、条件Transformer解码器和尺度预测器。多模态输入处理模块负责将不同模态的数据（如点云、深度图和图像）转换为统一的特征表示。条件Transformer解码器是核心模块，它接收表面点作为输入，并预测对应的稠密人体地标。可选的图像适配器用于融合视觉信息，以弥补几何信息的缺失。尺度预测器则用于预测输入数据的尺度，并将其缩放到标准人体比例。

关键创新：OmniFit的关键创新在于其尺度无关的稠密地标预测方法。与现有方法相比，OmniFit不需要预先知道输入数据的尺度信息，并且能够处理多种模态的输入数据。此外，条件Transformer解码器的设计使得OmniFit能够有效地学习表面点与人体地标之间的映射关系。

关键设计：条件Transformer解码器使用Transformer架构，将表面点作为query，并使用多模态输入处理模块提取的特征作为key和value。损失函数包括地标预测损失和SMPL-X参数拟合损失。尺度预测器使用一个简单的回归网络，预测输入数据的尺度因子。图像适配器使用卷积神经网络提取图像特征，并将其与几何特征融合。

📊 实验亮点

OmniFit在CAPE和4D-DRESS基准测试中取得了显著的性能提升，在日常服装和宽松服装场景中分别超越现有方法57.1%和80.9%。值得注意的是，OmniFit是第一个超越多视图优化基线的人体拟合方法，并且在CAPE和4D-DRESS基准上实现了毫米级的精度，这表明其在复杂服装场景下的拟合能力。

🎯 应用场景

OmniFit在虚拟现实、增强现实、游戏开发、服装设计和AI生成内容等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身、实现精确的服装试穿、以及自动化生成具有真实人体比例的3D模型。该研究还有助于提升AI生成内容的质量和真实感，并为相关领域的研究提供新的思路。

📄 摘要（原文）

Fitting an underlying body model to 3D clothed human assets has been extensively studied, yet most approaches focus on either single-modal inputs such as point clouds or multi-view images alone, often requiring a known metric scale. This constraint is frequently impractical, especially for AI-generated assets where scale distortion is common. We propose OmniFit, a method that can seamlessly handle diverse multi-modal inputs, including full scans, partial depth observations, and image captures, while remaining scale-agnostic for both real and synthetic assets. Our key innovation is a simple yet effective conditional transformer decoder that directly maps surface points to dense body landmarks, which are then used for SMPL-X parameter fitting. In addition, an optional plug-and-play image adapter incorporates visual cues to compensate for missing geometric information. We further introduce a dedicated scale predictor that rescales subjects to canonical body proportions. OmniFit substantially outperforms state-of-the-art methods by 57.1 to 80.9 percent across daily and loose clothing scenarios. To the best of our knowledge, it is the first body fitting method to surpass multi-view optimization baselines and the first to achieve millimeter-level accuracy on the CAPE and 4D-DRESS benchmarks.

OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理