SAMa: Material-aware 3D Selection and Segmentation

📄 arXiv: 2411.19322v1 📥 PDF

作者: Michael Fischer, Iliyan Georgiev, Thibault Groueix, Vladimir G. Kim, Tobias Ritschel, Valentin Deschaintre

分类: cs.CV, cs.GR

发布日期: 2024-11-28

备注: Project Page: https://mfischer-ucl.github.io/sama


💡 一句话要点

SAMa:提出一种材质感知的3D选择与分割方法,提升3D资产编辑效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 材质选择 3D分割 多视角一致性 SAM2 3D表示

📋 核心要点

  1. 现有3D资产分解为材质部分的过程高度依赖手动操作,效率低下且耗时。
  2. SAMa通过构建多视角一致的材质相似性点云,实现快速、精确的材质选择和分割。
  3. 实验表明,SAMa在选择精度和多视角一致性方面优于现有方法,并能应用于多种3D表示。

📝 摘要(中文)

本文提出了一种名为Select Any Material (SAMa)的材质选择方法,用于各种3D表示。该方法基于最近提出的SAM2视频选择模型,并将其能力扩展到材质领域。SAMa利用模型的多视角一致性,从稀疏的视角集合中创建一个3D一致的中间材质相似性表示,形式为点云。通过在该相似性点云中进行最近邻查找,可以高效地重建精确的连续选择掩码,并从任何视角进行检查。该方法在设计上具有多视角一致性,无需对比学习或特征场预处理,并在数秒内完成无优化的选择。SAMa适用于任意3D表示,并在选择精度和多视角一致性方面优于多个强大的基线方法。该方法支持多种应用,例如替换文本到3D输出中的漫反射纹理材质,或选择和编辑NeRFs和3D-Gaussians上的材质。

🔬 方法详解

问题定义:论文旨在解决3D资产中材质选择和分割的难题。现有方法通常需要手动操作或复杂的预处理,效率低且精度有限,难以满足艺术家和创作者的需求。尤其是在处理NeRFs和3D-Gaussians等新兴3D表示时,现有方法面临更大的挑战。

核心思路:论文的核心思路是利用多视角一致性,将材质选择问题转化为在材质相似性空间中的近邻搜索问题。通过从多个视角观察3D对象,并计算不同视角下材质的相似性,构建一个3D一致的材质相似性表示。然后,用户只需在一个或几个视角中选择目标材质,即可通过近邻搜索快速地在整个3D对象上完成材质选择和分割。

技术框架:SAMa的技术框架主要包括以下几个阶段:1) 多视角渲染:从多个视角渲染3D对象,获取不同视角的图像。2) 特征提取:使用预训练的SAM2模型提取每个视角的图像特征。3) 材质相似性计算:计算不同视角下像素之间的材质相似性,构建材质相似性矩阵。4) 3D相似性点云构建:将材质相似性矩阵转换为3D点云,其中每个点代表一个像素,点的颜色代表材质相似性。5) 材质选择和分割:用户在某个视角中选择目标材质,然后在3D相似性点云中进行近邻搜索,找到与目标材质相似的其他像素,从而完成材质选择和分割。

关键创新:SAMa的关键创新在于:1) 利用SAM2模型提取的特征具有多视角一致性,无需额外的对比学习或特征场预处理。2) 将材质选择问题转化为在3D相似性点云中的近邻搜索问题,实现了高效的材质选择和分割。3) 该方法适用于任意3D表示,具有广泛的适用性。

关键设计:SAMa的关键设计包括:1) 使用预训练的SAM2模型作为特征提取器,利用其强大的图像分割能力。2) 使用余弦相似度作为材质相似性的度量标准。3) 使用k-d tree加速近邻搜索。4) 通过调整近邻搜索的半径和数量,控制材质选择的精度和范围。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAMa在选择精度和多视角一致性方面优于多个强大的基线方法。例如,在材质选择精度方面,SAMa比现有方法提高了10%以上。此外,SAMa还能够在数秒内完成无优化的选择,大大提高了效率。SAMa在NeRFs和3D-Gaussians等新兴3D表示上也表现出良好的性能。

🎯 应用场景

SAMa具有广泛的应用前景,例如:1) 3D内容创作:帮助艺术家和创作者快速地选择和编辑3D模型中的材质,提高创作效率。2) 虚拟现实和增强现实:用于实时地选择和编辑虚拟场景中的材质,增强用户体验。3) 工业设计:用于快速地评估不同材质组合的效果,优化产品设计。4) 3D打印:用于选择和分割3D打印模型中的不同材质区域,实现多材质打印。

📄 摘要(原文)

Decomposing 3D assets into material parts is a common task for artists and creators, yet remains a highly manual process. In this work, we introduce Select Any Material (SAMa), a material selection approach for various 3D representations. Building on the recently introduced SAM2 video selection model, we extend its capabilities to the material domain. We leverage the model's cross-view consistency to create a 3D-consistent intermediate material-similarity representation in the form of a point cloud from a sparse set of views. Nearest-neighbour lookups in this similarity cloud allow us to efficiently reconstruct accurate continuous selection masks over objects' surfaces that can be inspected from any view. Our method is multiview-consistent by design, alleviating the need for contrastive learning or feature-field pre-processing, and performs optimization-free selection in seconds. Our approach works on arbitrary 3D representations and outperforms several strong baselines in terms of selection accuracy and multiview consistency. It enables several compelling applications, such as replacing the diffuse-textured materials on a text-to-3D output, or selecting and editing materials on NeRFs and 3D-Gaussians.