PRIMA: Boosting Animal Mesh Recovery with Biological Priors and Test-Time Adaptation
作者: Xiaohang Yu, Ti Wang, Mackenzie Weygandt Mathis
分类: cs.CV
发布日期: 2026-06-01
🔗 代码/项目: GITHUB
💡 一句话要点
PRIMA:利用生物先验和测试时自适应提升动物网格重建效果
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 动物三维重建 生物先验 测试时自适应 四足动物 网格重建
📋 核心要点
- 现有动物3D重建方法受限于数据分布不均和3D监督信息不足,导致对罕见动物和姿势泛化性差。
- PRIMA通过引入生物先验知识和测试时自适应策略,提升模型对不同物种和姿势的重建能力。
- 实验表明,PRIMA在多个数据集上超越现有方法,尤其在长尾物种和复杂姿势上提升显著。
📝 摘要(中文)
PRIMA(PRIors for Mesh Adaptation,网格自适应先验)是一个用于在严重的物种和姿势不平衡情况下,实现鲁棒的四足动物3D网格重建的框架。由于3D监督信息的有限性和长尾物种分布,现有的动物重建方法通常回归到平均形状和姿势,导致对未充分表示的动物和罕见关节的泛化能力较差。PRIMA通过三个关键贡献来解决这一挑战。首先,我们结合BioCLIP嵌入作为生物先验,将语义和形态知识注入到重建过程中,从而实现更准确和可泛化的跨多种四足动物的形状预测。其次,我们引入了一种测试时自适应(TTA)策略,该策略使用2D重投影约束以及辅助关键点引导来细化SMAL预测,从而改进姿势和形状估计,同时能够从现有的2D数据集生成高质量的伪3D注释。第三,利用此TTA框架,我们构建了Quadruped3D,这是一个大规模的伪3D数据集,涵盖了各种物种和姿势变化,以系统地提高模型性能。在Animal3D、CtrlAni3D、Quadruped2D和Animal Kingdom上的大量实验表明,PRIMA实现了最先进的结果,尤其是在未充分表示的物种和具有挑战性的姿势方面取得了显著改进。我们的结果突出了生物先验和自适应驱动的数据扩展对于可扩展和可泛化的动物网格重建的重要性。
🔬 方法详解
问题定义:论文旨在解决四足动物3D网格重建中,由于物种和姿势分布不平衡导致的泛化性问题。现有方法在面对未充分表示的动物种类和罕见姿势时,容易回归到平均形状和姿势,重建精度较低。
核心思路:论文的核心思路是利用生物先验知识约束重建过程,并采用测试时自适应策略来优化模型在特定输入上的表现。通过引入生物信息和在线调整,模型能够更好地适应各种动物和姿势,提高重建的准确性和鲁棒性。
技术框架:PRIMA框架主要包含三个部分:1) 利用BioCLIP嵌入作为生物先验,指导形状预测;2) 引入测试时自适应(TTA)策略,通过2D重投影和关键点引导细化SMAL预测;3) 构建大规模伪3D数据集Quadruped3D,用于训练和提升模型性能。整体流程是从2D图像输入,经过SMAL模型预测初始3D网格,然后利用生物先验和TTA进行优化。
关键创新:PRIMA的关键创新在于将生物先验知识和测试时自适应策略相结合,用于动物3D重建。与传统方法仅依赖视觉信息不同,PRIMA利用BioCLIP嵌入引入了动物的语义和形态信息,从而更好地约束形状预测。同时,TTA策略使得模型能够在测试阶段针对特定输入进行优化,进一步提升重建精度。
关键设计:BioCLIP嵌入通过预训练的CLIP模型提取图像的生物特征,并将其作为先验信息融入到SMAL模型的训练中。TTA策略使用2D关键点检测器提取的关键点作为引导,结合2D重投影误差,优化SMAL模型的姿势和形状参数。Quadruped3D数据集通过TTA策略从2D数据生成伪3D标签,用于大规模训练。
🖼️ 关键图片
📊 实验亮点
PRIMA在Animal3D、CtrlAni3D、Quadruped2D和Animal Kingdom等数据集上取得了SOTA结果,尤其在长尾物种和复杂姿势上提升显著。例如,在Animal3D数据集上,PRIMA的重建精度相比现有方法提升了X%。实验结果表明,生物先验和测试时自适应策略能够有效提升动物3D重建的性能。
🎯 应用场景
该研究成果可应用于动物行为分析、虚拟现实、游戏开发、生物学研究等领域。例如,可以用于构建逼真的动物模型,进行动物运动模拟和姿态估计,或者用于野生动物保护和监测。此外,该方法还可以扩展到其他具有类似结构和姿势变化的对象的三维重建任务中。
📄 摘要(原文)
We present PRIMA (PRIors for Mesh Adaptation), a framework for robust 3D quadruped mesh recovery under severe species and pose imbalance. Existing animal reconstruction methods often regress toward mean shapes and poses due to limited 3D supervision and long-tailed species distributions, resulting in poor generalization to underrepresented animals and rare articulations. PRIMA addresses this challenge through three key contributions. First, we incorporate BioCLIP embeddings as biological priors to inject semantic and morphological knowledge into the reconstruction process, enabling more accurate and generalizable shape prediction across diverse quadrupeds. Second, we introduce a test-time adaptation (TTA) strategy that refines SMAL predictions using 2D reprojection constraints together with auxiliary keypoint guidance, improving pose and shape estimation while enabling the generation of high-quality pseudo-3D annotations from existing 2D datasets. Third, leveraging this TTA framework, we construct Quadruped3D, a large-scale pseudo-3D dataset that covers diverse species and pose variations to systematically improve model performance. Extensive experiments on Animal3D, CtrlAni3D, Quadruped2D, and Animal Kingdom demonstrate that PRIMA achieves state-of-the-art results, with particularly strong improvements on underrepresented species and challenging poses. Our results highlight the importance of biological priors and adaptation-driven data expansion for scalable and generalizable animal mesh recovery. Code is available at https://github.com/AdaptiveMotorControlLab/PRIMA.