SAM 3D Animal: Promptable Animal 3D Reconstruction from Images in the Wild
作者: Xuyi Hu, Jin Lyu, Jiuming Liu, Yebin Liu, Silvia Zuffi, Liang An, Stefan Goetz
分类: cs.CV, cs.AI
发布日期: 2026-05-08
💡 一句话要点
提出SAM 3D Animal框架,实现野外场景下基于提示的多动物3D重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 动物姿态估计 提示学习 参数化模型 计算机视觉 多实例学习
📋 核心要点
- 现有方法多局限于单动物场景,难以应对野外复杂环境下的物种多样性、频繁遮挡及多动物交互带来的挑战。
- 提出首个支持提示的SAM 3D Animal框架,利用SMAL+模型并结合关键点与掩码提示,实现多实例联合重建与歧义消除。
- 构建了包含5K+图像的Herd3D数据集,实验证明该方法在多个基准数据集上均优于现有主流方法,展现了卓越的重建性能。
📝 摘要(中文)
由于物种多样性大、遮挡频繁以及多动物场景普遍存在,野外环境下的动物3D重建仍具挑战性,且现有方法多局限于单动物设置。本文提出了SAM 3D Animal,这是首个支持提示(Promptable)的多动物单图3D重建框架。该方法基于SMAL+参数化动物模型,能够联合重建多个实例,并支持关键点和掩码形式的灵活提示,从而在拥挤和遮挡场景中实现更可靠的歧义消除。为训练该模型,我们还引入了Herd3D数据集,包含超过5000张图像,旨在增加物种、交互和遮挡模式的多样性。在Animal3D、APTV2和Animal Kingdom数据集上的实验表明,该框架在基于模型和无模型方法中均达到了SOTA水平,为野外提示驱动的动物3D重建提供了可扩展且有效的解决方案。
🔬 方法详解
问题定义:论文旨在解决野外单张图像中多动物实例的3D形状与姿态重建问题。现有方法在处理多动物重叠、遮挡以及复杂物种形态时,往往因缺乏有效的交互信息和先验约束而导致重建失败或实例混淆。
核心思路:引入“提示(Promptable)”机制,通过用户提供的关键点和掩码作为先验引导,辅助模型在复杂场景中进行实例分割与特征对齐,从而实现对多动物实例的精确解耦与重建。
技术框架:该框架基于SMAL+参数化模型,构建了一个多阶段处理流程。首先利用提示引导的分割模块提取各动物实例特征,随后通过参数回归网络预测SMAL+模型的形状、姿态及相机参数,最后通过联合优化实现多实例的3D空间布局重建。
关键创新:首次将提示学习引入动物3D重建领域,通过关键点和掩码的交互式输入,有效解决了遮挡场景下的实例歧义问题;同时提出了Herd3D数据集,显著提升了模型在野外复杂交互场景下的泛化能力。
关键设计:采用SMAL+作为基础几何先验,结合多实例联合回归损失函数,通过对不同实例的特征进行空间对齐与约束,确保在多动物场景下重建结果的几何一致性与物理合理性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAM 3D Animal在Animal3D、APTv2及Animal Kingdom等主流数据集上均刷新了性能指标。相比现有的基于模型(Model-based)和无模型(Model-free)方法,该框架在处理高遮挡和多实例场景时表现出更强的鲁棒性,显著提升了重建精度与实例区分能力。
🎯 应用场景
该研究在野生动物保护监测、生物行为学研究、影视特效制作及虚拟现实内容生成领域具有重要价值。通过对野外动物的自动化3D建模,研究人员可更精准地分析动物行为模式,同时为数字孪生和交互式媒体提供高效的资产生成工具。
📄 摘要(原文)
3D animal reconstruction in the wild remains challenging due to large species variation, frequent occlusions, and the prevalence of multi-animal scenes, while existing methods predominantly focus on single-animal settings. We present SAM 3D Animal, the first promptable framework for multi-animal 3D reconstruction from a single image. Built on the SMAL+ parametric animal model, our method jointly reconstructs multiple instances and supports flexible prompts in the form of keypoints and masks which enable more reliable disambiguation in crowded and occluded scenes. To train such a model, we further introduce Herd3D, a multi-animal 3D dataset containing over 5K images, designed to increase diversity in species, interactions, and occlusion patterns. Experiments on the Animal3D, APTv2, and Animal Kingdom datasets show that our framework achieves state-of-the-art results over both existing model-based and model-free methods, demonstrating a scalable and effective solution for prompt-driven animal 3D reconstruction in the wild.