H2G: Hierarchy-Aware Hyperbolic Grouping for 3D Scenes
作者: ByungHa Ko, Youngmin Lee, Dong Hwan Kim
分类: cs.CV
发布日期: 2026-05-12
💡 一句话要点
提出H2G:一种层级感知的双曲空间分组方法,用于三维场景理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 三维场景理解 层级分组 双曲空间 深度学习 计算机视觉
📋 核心要点
- 现有3D场景分组方法难以有效利用2D基础模型提供的线索,缺乏对层级关系的建模能力。
- H2G的核心思想是将2D基础模型的相似性信息转化为层级监督信号,并嵌入到双曲空间中进行表示。
- H2G通过实验验证了其在层级3D场景分组任务上的有效性,能够学习到具有语义意义的层级结构。
📝 摘要(中文)
本文提出了一种名为H2G的层级感知双曲分组方法,用于三维场景的层级分组。该方法旨在无需语义标签或固定词汇表的情况下,从细粒度的对象部件到完整的对象,恢复跨多个粒度的场景组。主要挑战在于将2D基础模型线索转换为连贯的层级监督,并将该层级嵌入到3D表示中。H2G通过Dasgupta目标解释基于相似性的层级聚类,从而导出语义组织的树结构监督。这种监督被提炼成一个单一的洛伦兹双曲特征场,其几何形状非常适合树状分支结构。层级感知目标将该特征场与细粒度分配、粗略对象结构、紧凑特征簇和LCA(最近公共祖先)排序对齐。这种公式在一个特征空间中表示多个分组级别,从而实现基于2D基础模型知识的语义层级分组。
🔬 方法详解
问题定义:论文旨在解决三维场景的层级分组问题,即在没有语义标签或固定词汇表的情况下,将场景中的元素按照不同的粒度进行分组,从细粒度的部件到完整的物体。现有方法通常难以有效地利用2D基础模型提供的线索,并且缺乏对层级关系的建模能力,导致分组结果不够准确和连贯。
核心思路:论文的核心思路是将2D基础模型的相似性信息转化为层级监督信号,并利用双曲空间的特性来表示这种层级关系。双曲空间的几何特性天然适合表示树状结构,因此可以有效地建模场景中元素之间的层级关系。通过将2D线索嵌入到双曲空间中,可以更好地利用2D基础模型的知识,从而提高分组的准确性和连贯性。
技术框架:H2G的整体框架包括以下几个主要步骤:1) 利用2D基础模型提取场景中元素的特征表示;2) 基于这些特征计算元素之间的相似性;3) 利用Dasgupta目标将相似性信息转化为层级监督信号,生成语义组织的树结构;4) 将层级监督信号提炼成一个洛伦兹双曲特征场;5) 利用层级感知目标函数对双曲特征场进行优化,使其与细粒度分配、粗略对象结构、紧凑特征簇和LCA排序对齐。
关键创新:H2G的关键创新在于:1) 提出了一种将2D基础模型线索转化为层级监督信号的方法;2) 利用双曲空间来表示和建模场景中元素之间的层级关系;3) 设计了一种层级感知目标函数,可以有效地优化双曲特征场,使其与不同粒度的分组结果对齐。与现有方法相比,H2G能够更好地利用2D基础模型的知识,并且能够更准确地建模场景中的层级关系。
关键设计:H2G的关键设计包括:1) 使用Dasgupta目标来生成层级监督信号,该目标可以有效地衡量聚类结果的质量;2) 使用洛伦兹双曲空间来表示特征,该空间具有负曲率,适合表示树状结构;3) 设计了层级感知目标函数,包括细粒度分配损失、粗略对象结构损失、紧凑特征簇损失和LCA排序损失,这些损失函数可以共同优化双曲特征场,使其与不同粒度的分组结果对齐。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了H2G在层级3D场景分组任务上的有效性。实验结果表明,H2G能够学习到具有语义意义的层级结构,并且在分组准确率和效率方面都优于现有的方法。具体的性能数据和对比基线在论文中有详细的描述。
🎯 应用场景
H2G具有广泛的应用前景,例如在机器人导航中,可以用于理解周围环境的结构,从而更好地规划路径;在增强现实中,可以用于将虚拟物体与真实场景中的物体进行对齐和交互;在三维场景编辑中,可以用于对场景中的物体进行分组和编辑。此外,该方法还可以应用于自动驾驶、城市规划等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Hierarchical 3D grouping aims to recover scene groups across multiple granularities, from fine object parts to complete objects, without relying on semantic labels or a fixed vocabulary. The main challenge is to transform 2D foundation-model cues into coherent hierarchy supervision and embed that hierarchy in a 3D representation. We propose H2G, a hyperbolic affinity field for hierarchical 3D grouping. Our method derives semantically organized tree supervision by interpreting foundation-model affinities through Dasgupta's objective for similarity-based hierarchical clustering. This supervision is distilled into a single Lorentz hyperbolic feature field, whose geometry is well suited for tree-like branching structures. A hierarchy-aware objective aligns the field with fine-level assignments, coarse object structure, compact feature clusters, and LCA (Lowest Common Ancestor) ordering. This formulation represents multiple grouping levels in one feature space, enabling semantic hierarchical grouping grounded in 2D foundation-model knowledge.