ToLL: Topological Layout Learning with Structural Multi-view Augmentation for 3D Scene Graph Pretraining

📄 arXiv: 2603.28178v1 📥 PDF

作者: Yucheng Huang, Luping Ji, Xiangwei Jiang, Wen Li, Mao Ye

分类: cs.CV

发布日期: 2026-03-30

备注: Under Reivew


💡 一句话要点

提出ToLL框架,通过拓扑布局学习和结构多视角增强进行3D场景图预训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景图 预训练 拓扑布局学习 图神经网络 自监督学习

📋 核心要点

  1. 现有3DSG生成方法受限于数据稀缺,且依赖谓词标注或易受对象先验影响,缺乏鲁棒的自监督预训练方案。
  2. ToLL框架通过锚点条件拓扑几何推理和结构多视角增强,实现无标签且强制谓词关系学习的3DSG预训练。
  3. 实验表明,ToLL框架能有效提升3DSG表示质量,并在3DSSG数据集上超越现有最佳方法。

📝 摘要(中文)

3D场景图(3DSG)生成在空间理解和语义可供性感知中起着关键作用。然而,其泛化能力通常受到数据稀缺的限制。目前的解决方案主要集中在跨模态辅助表示学习和以对象为中心的生成预训练。前者严重依赖于谓词标注,而后者由于强大的对象先验,可能绕过谓词学习。因此,它们通常无法为3DSG微调提供无标签且鲁棒的自监督代理任务。为了弥合这一差距,我们提出了一个用于3DSG预训练的拓扑布局学习(ToLL)框架。具体来说,我们设计了一种锚点条件拓扑几何推理,利用GNN通过来自稀疏锚点的空间先验来恢复以零为中心的子图的全局布局。这个过程受到谓词特征的严格调节,从而强制执行谓词关系学习。此外,我们构建了一个结构多视角增强,以避免语义损坏,并通过自蒸馏增强表示。在3DSSG数据集上的大量实验表明,我们的ToLL可以提高表示质量,优于最先进的基线。

🔬 方法详解

问题定义:现有3D场景图(3DSG)生成方法受限于数据稀缺,泛化能力不足。现有的跨模态辅助表示学习方法依赖于大量的谓词标注,而以对象为中心的生成预训练方法则容易受到对象先验的影响,从而忽略了谓词关系的学习。因此,缺乏一种无标签且鲁棒的自监督预训练方法来提升3DSG的性能。

核心思路:论文的核心思路是通过学习场景的拓扑布局来预训练3DSG模型。具体来说,利用场景中对象的空间关系(拓扑结构)作为自监督信号,迫使模型学习对象之间的谓词关系,从而提升模型的泛化能力和鲁棒性。通过锚点条件拓扑几何推理,利用少量锚点对象来推断整个场景的布局。

技术框架:ToLL框架主要包含两个核心模块:锚点条件拓扑几何推理(Anchor-Conditioned Topological Geometry Reasoning)和结构多视角增强(Structural Multi-view Augmentation)。首先,通过GNN学习以零为中心的子图的全局布局,该布局由来自稀疏锚点的空间先验引导,并受到谓词特征的调节。然后,通过结构多视角增强,避免语义损坏,并通过自蒸馏增强表示。整体流程是先进行拓扑布局学习,再进行结构多视角增强,最后利用学习到的表示进行下游任务的微调。

关键创新:论文的关键创新在于提出了锚点条件拓扑几何推理,它利用场景中少量锚点对象来推断整个场景的布局,从而避免了对大量谓词标注的依赖。此外,结构多视角增强通过自蒸馏进一步提升了表示的质量。与现有方法的本质区别在于,ToLL框架是一种无标签的自监督预训练方法,它通过学习场景的拓扑结构来提升3DSG的性能,而不是依赖于大量的标注数据或对象先验。

关键设计:锚点条件拓扑几何推理模块使用GNN来学习子图的布局,GNN的输入是锚点对象的特征和空间关系,输出是子图中其他对象的位置。损失函数包括布局预测损失和谓词预测损失,用于约束GNN的学习。结构多视角增强模块通过对场景进行不同的变换(例如旋转、缩放),生成多个视角的场景表示,然后利用自蒸馏损失来约束不同视角的表示一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ToLL框架在3DSSG数据集上取得了显著的性能提升,超越了现有的最佳方法。实验结果表明,ToLL框架能够有效提升3D场景图的表示质量,从而提高下游任务的性能。具体的性能数据和提升幅度在论文中有详细的展示。

🎯 应用场景

该研究成果可应用于机器人导航、场景理解、虚拟现实等领域。通过提升3D场景图的表示能力,可以使机器人更好地理解周围环境,从而实现更智能的导航和交互。在虚拟现实领域,可以生成更逼真、更具语义信息的3D场景,提升用户体验。此外,该方法还可以应用于自动驾驶领域,帮助车辆更好地理解交通场景,提高驾驶安全性。

📄 摘要(原文)

3D Scene Graph (3DSG) generation plays a pivotal role in spatial understanding and semantic-affordance perception. However, its generalizability is often constrained by data scarcity. Current solutions primarily focus on cross-modal assisted representation learning and object-centric generation pre-training. The former relies heavily on predicate annotations, while the latter's predicate learning may be bypassed due to strong object priors. Consequently, they could not often provide a label-free and robust self-supervised proxy task for 3DSG fine-tuning. To bridge this gap, we propose a Topological Layout Learning (ToLL) for 3DSG pretraining framework. In detail, we design an Anchor-Conditioned Topological Geometry Reasoning, with a GNN to recover the global layout of zero-centered subgraphs by the spatial priors from sparse anchors. This process is strictly modulated by predicate features, thereby enforcing the predicate relation learning. Furthermore, we construct a Structural Multi-view Augmentation to avoid semantic corruption, and enhancing representations via self-distillation. The extensive experiments on 3DSSG dataset demonstrate that our ToLL could improve representation quality, outperforming state-of-the-art baselines.