Anny-Fit: All-Age Human Mesh Recovery

📄 arXiv: 2605.04728v1 📥 PDF

作者: Laura Bravo-Sánchez, Matthieu Armando, Romain Brégier, Grégory Rogez, Serena Yeung-Levy, Fabien Baradel

分类: cs.CV

发布日期: 2026-05-06

备注: CVPR 2026 Findings Track - Code available at https://github.com/naver/anny-fit

🔗 代码/项目: GITHUB


💡 一句话要点

Anny-Fit:提出适用于全年龄段的多人三维人体网格重建优化框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 三维人体网格重建 全年龄段 多人场景 相机空间优化 知识蒸馏

📋 核心要点

  1. 现有三维人体网格重建方法主要针对成年人,且独立优化个体,忽略了全年龄场景下的身体比例和深度依赖关系。
  2. Anny-Fit通过在相机坐标系中联合优化所有个体,并结合多种专家知识,实现全局空间一致性和深度尺度约束。
  3. 实验表明,Anny-Fit在多个数据集上显著提升了2D重投影精度、深度排序、3D估计误差和形状估计,并可用于知识蒸馏。

📝 摘要(中文)

本文提出Anny-Fit,一个用于全年龄段三维人体网格重建(HMR)的多人、相机空间优化框架。现有方法通常假设对象为成年人并独立优化每个人,这在实际的全年龄场景中失效,因为身体比例和深度必须联合解决。Anny-Fit直接在相机坐标系中联合优化所有人,从而保证全局空间一致性。该方法的核心是利用多种形式的专家知识,包括度量深度图、实例分割、2D关键点以及VLM衍生的语义属性(如年龄和性别),这些信息由专门的现成网络获得。这些互补信号共同指导优化,约束了全年龄场景中特有的深度-尺度模糊性。在多个数据集上,Anny-Fit持续提高了2D重投影精度(+13到16)、相对深度排序(+6到7)、3D估计误差(-9到-29)和形状估计(+25到+82),从而产生更连贯的场景。最后,本文展示了基于VLM的语义知识可以通过Anny-Fit在训练数据上生成的伪真值标注提炼到HMR模型中,使其能够学习语义上有意义的形状参数,同时提高HMR性能。该方法通过实现成人训练的HMR流水线到全年龄范围的零样本适应,而无需重新训练,从而弥合了仅限成人和全年龄建模之间的差距。

🔬 方法详解

问题定义:现有三维人体网格重建方法主要针对成年人,并且通常独立地对每个人进行拟合。这在包含儿童和成人的全年龄段场景中会遇到问题,因为不同年龄段的人体比例差异很大,且深度估计存在尺度模糊性。独立拟合的方式无法保证场景中人物的相对深度关系和空间一致性。

核心思路:Anny-Fit的核心思路是在相机坐标系下,联合优化场景中所有人的三维人体网格。通过引入多种专家知识(如深度图、分割、关键点、年龄性别等),约束优化过程,解决深度尺度模糊性,并保证场景中人物的空间一致性。这种联合优化方式能够更好地处理全年龄段场景中人体比例和深度关系的复杂性。

技术框架:Anny-Fit是一个基于优化的框架,主要流程如下:1) 输入单张图像;2) 使用现成的网络提取多种专家知识,包括度量深度图、实例分割、2D关键点和VLM衍生的语义属性(如年龄和性别);3) 在相机坐标系下,初始化场景中所有人的三维人体网格;4) 使用提取的专家知识作为约束,联合优化所有人的网格参数,目标是最小化重投影误差、深度误差、形状误差等;5) 输出优化后的三维人体网格。

关键创新:Anny-Fit的关键创新在于:1) 提出了一个适用于全年龄段场景的多人三维人体网格重建框架;2) 采用联合优化策略,保证了场景中人物的空间一致性;3) 融合了多种专家知识,有效约束了深度尺度模糊性;4) 证明了VLM的语义知识可以用于提升HMR模型的性能,并实现零样本迁移。

关键设计:Anny-Fit的关键设计包括:1) 使用相机坐标系进行联合优化;2) 设计了合适的损失函数,包括重投影误差、深度误差、形状误差等,以约束优化过程;3) 使用现成的深度估计、分割、关键点检测和VLM模型,避免了从头训练这些模块;4) 利用Anny-Fit生成的伪真值数据,对HMR模型进行知识蒸馏,使其能够学习语义上有意义的形状参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Anny-Fit在多个数据集上取得了显著的性能提升。例如,在2D重投影精度上提升了13%到16%,在相对深度排序上提升了6%到7%,在3D估计误差上降低了9%到29%,在形状估计上提升了25%到82%。此外,该方法还展示了将VLM的语义知识蒸馏到HMR模型中的能力,进一步提升了HMR的性能。

🎯 应用场景

Anny-Fit在虚拟现实/增强现实、人机交互、电影制作、游戏开发等领域具有广泛的应用前景。它可以用于创建更逼真、更自然的虚拟场景,并支持更智能的人机交互。此外,该方法还可以用于分析人群行为、监测儿童安全等。

📄 摘要(原文)

Recovering 3D human pose and shape from a single image remains a cornerstone of human-centric vision, yet most methods assume adult subjects and optimize each person independently. These assumptions fail in real-world, all-age scenes, where body proportions and depth must be resolved jointly. We introduce Anny-Fit, a multi-person, camera-space optimization framework for all-age 3D human mesh recovery (HMR). Unlike existing per-person fitting methods, Anny-Fit jointly optimizes all individuals directly in the camera coordinate system, enforcing global spatial consistency. At the core of our approach is the use of multiple forms of expert knowledge -- including metric depth maps, instance segmentation, 2D keypoints, and, VLM-derived semantic attributes such as age and gender -- each obtained from dedicated off-the-shelf networks. These complementary signals jointly guide the optimization, constraining the depth-scale ambiguity characteristic of all-age scenes. Across diverse datasets, Anny-Fit consistently improves 2D reprojection accuracy (+13 to 16), relative depth ordering (+6 to 7), 3D estimation error (-9 to -29) and shape estimation (+25 to +82), producing more coherent scenes. Finally, we show that VLM-based semantic knowledge can be distilled into an HMR model via the pseudo-ground-truth annotations produced by Anny-Fit on training data, enabling it to learn semantically meaningful shape parameters while improving HMR performance. Our approach bridges adult-only and all-age modeling by enabling zero-shot adaptation of adult-trained HMR pipelines to the full age spectrum without retraining. Code is publicly available at https://github.com/naver/anny-fit.