DinoComplete: 3D Shape Completion with Distilled Semantic Priors and State Space Models

📄 arXiv: 2605.26949v1 📥 PDF

作者: Furkan Mert Algan, Eckehard Steinbach

分类: cs.CV, cs.GR

发布日期: 2026-05-26


💡 一句话要点

DinoComplete:利用蒸馏语义先验和状态空间模型实现三维形状补全

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 三维形状补全 语义先验 DINO特征 状态空间模型 Mamba模块 视觉基础模型 蒸馏学习

📋 核心要点

  1. 现有三维形状补全方法在处理未见过的类别和真实场景噪声时,仅依赖几何信息难以推断缺失结构。
  2. DinoComplete通过蒸馏DINO特征,学习体素对齐的语义先验,并将其融入到几何重建中,增强补全效果。
  3. 实验表明,DinoComplete在ShapeNet和ScanNet数据集上优于现有方法,同时参数更少、内存占用更低、推理速度更快。

📝 摘要(中文)

本文提出DinoComplete,一个确定性和高效的形状补全框架,它利用从DINO特征中蒸馏出的体素对齐的语义先验来增强几何重建。针对未见过的类别和嘈杂的真实世界观测,几何信息不足以推断缺失结构的问题,该方法首先构建与ShapeNet数据对齐的多视角DINO特征体,并训练一个学生网络直接从不完整的形状预测密集的语义特征。这些预测的特征捕获了全局结构和部件感知的语义上下文,同时保持与底层几何结构的对齐。然后,将这些蒸馏的特征集成到一个补全网络中,其中几何和语义体素表示通过体素状态空间建模进行融合。为了在不牺牲分辨率的情况下实现高效的远程推理,引入了一个多尺度体素Mamba模块,通过结合全网格和分块序列建模来细化融合的特征。在未见过的ShapeNet类别和ScanNet对象上的实验表明,DinoComplete比以前的基于确定性和生成式的补全方法实现了更强的补全质量,同时使用更少的参数,需要更低的内存,并实现了更快的推理。结果表明,从视觉基础模型中蒸馏语义先验可以提高三维形状补全的泛化性和鲁棒性。

🔬 方法详解

问题定义:三维形状补全旨在从部分扫描数据恢复完整的三维模型。现有方法在处理未见过的类别和真实世界的噪声数据时,往往依赖于几何信息,这不足以推断出缺失的结构,导致补全效果不佳。此外,现有方法通常计算量大,效率较低。

核心思路:DinoComplete的核心思路是利用视觉基础模型DINO提取的语义信息作为先验知识,辅助几何信息的补全。通过蒸馏DINO特征,学习到与体素对齐的语义表示,从而在补全过程中能够更好地理解物体的全局结构和部件关系。这种方法能够提高模型对未见过的类别和噪声数据的泛化能力。

技术框架:DinoComplete的整体框架包括以下几个主要步骤:1) 构建多视角DINO特征体,并与ShapeNet数据对齐。2) 训练一个学生网络,从不完整的形状预测密集的语义特征。3) 将预测的语义特征与几何体素表示融合。4) 使用多尺度体素Mamba模块细化融合的特征。

关键创新:DinoComplete的关键创新在于:1) 利用DINO特征作为语义先验,提高了模型对未见过的类别和噪声数据的泛化能力。2) 引入多尺度体素Mamba模块,实现了高效的远程推理,同时保持了高分辨率。3) 通过蒸馏的方式,将DINO的知识迁移到形状补全任务中,降低了计算成本。

关键设计:在构建多视角DINO特征体时,需要选择合适的视角数量和分辨率。学生网络的训练采用了合适的损失函数,以保证预测的语义特征与底层几何结构对齐。多尺度体素Mamba模块的设计需要平衡计算效率和远程依赖建模能力。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DinoComplete在ShapeNet和ScanNet数据集上取得了显著的性能提升。相较于之前的确定性和生成式补全方法,DinoComplete在补全质量上更胜一筹,同时参数量更少,内存占用更低,推理速度更快。这些结果表明,从视觉基础模型中蒸馏语义先验可以有效提高三维形状补全的性能。

🎯 应用场景

DinoComplete在机器人、自动驾驶、虚拟现实等领域具有广泛的应用前景。例如,机器人可以利用该技术补全传感器获取的不完整的三维环境信息,从而更好地进行导航和物体操作。在自动驾驶领域,该技术可以用于补全激光雷达扫描到的不完整的三维场景,提高环境感知能力。在虚拟现实领域,该技术可以用于生成更逼真的三维模型。

📄 摘要(原文)

3D shape completion from partial scans remains challenging for unseen categories and noisy real-world observations, where geometry alone is often insufficient for inferring missing structure. We present DinoComplete, a deterministic and efficient shape completion framework that augments geometric reconstruction with voxel-aligned semantic priors distilled from DINO features. First, we construct multi-view DINO feature volumes aligned with ShapeNet data and train a student network to predict dense semantic features directly from incomplete shapes. These predicted features capture global structure and part-aware semantic context while remaining aligned with the underlying geometry. We then integrate these distilled features into a completion network, where geometric and semantic voxel representations are fused through voxel state-space modeling. To enable efficient long-range reasoning without sacrificing resolution, we introduce a multi-scale voxel Mamba module that refines the fused features by combining full-grid and chunk-wise sequence modeling. Experiments on unseen ShapeNet categories and ScanNet objects show that DinoComplete achieves stronger completion quality than prior deterministic and generative based completion methods while using fewer parameters, requiring lower memory, and achieving faster inference. Our results demonstrate that distilling semantic priors from visual foundation models improves generalization and robustness in 3D shape completion.