TORA: Topological Representation Alignment for 3D Shape Assembly

📄 arXiv: 2604.04050 📥 PDF

作者: Nahyuk Lee, Zhiang Chen, Marc Pollefeys, Sunghwan Hong

分类: cs.CV, cs.LG

发布日期: 2026-04-07


💡 一句话要点

TORA:通过拓扑表示对齐实现更高效、准确的3D形状组装

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D形状组装 拓扑表示对齐 流匹配 预训练模型 零样本迁移

📋 核心要点

  1. 现有基于流匹配的3D形状组装方法缺乏对部件间交互的明确建模,导致组装效率和准确性受限。
  2. TORA框架通过将预训练3D编码器的关系结构提炼到流匹配网络中,显式地指导部件间的交互。
  3. 实验表明,TORA显著提升了3D形状组装的收敛速度、准确性和鲁棒性,并在零样本迁移中表现出色。

📝 摘要(中文)

本文提出了一种用于3D形状组装的拓扑优先表示对齐框架TORA。针对现有基于流匹配的3D形状组装方法缺乏对跨部件交互驱动运动的显式指导的问题,TORA在训练期间将预训练的3D编码器中的关系结构提炼到流匹配骨干网络中。首先,通过简单的实例化和token-wise余弦匹配,注入来自教师表示的学习几何描述符。然后,扩展到使用中心核对齐(CKA)损失来匹配学生和教师表示之间的相似性结构,以增强拓扑对齐。通过对各种3D编码器的系统性探究,表明几何和接触中心化的教师属性,而非语义分类能力,决定了对齐的有效性,并且对齐在空间结构自然出现的后期Transformer层中最有益。TORA引入了零推理开销,同时产生了两个一致的优势:更快的收敛速度(高达6.9倍)和改进的分布内准确性,以及在领域转移下更大的鲁棒性。在涵盖几何、语义和对象间组装的五个基准测试上的实验表明,TORA实现了最先进的性能,尤其是在零样本迁移到未见过的真实世界和合成数据集时,收益更为显著。

🔬 方法详解

问题定义:现有的基于流匹配的3D形状组装方法主要依赖于学习点级别的速度场,以引导部件向最终的组装结构移动。然而,这些方法缺乏对部件之间关系的显式建模,即没有明确地指导哪些部件应该如何交互以完成组装。这导致训练过程效率低下,并且在面对新的、未见过的数据时泛化能力较差。现有方法的痛点在于缺乏对拓扑结构的感知,无法有效地利用部件间的关系信息来指导组装过程。

核心思路:TORA的核心思路是利用预训练的3D编码器中蕴含的拓扑关系信息,将其迁移到流匹配的组装网络中,从而显式地指导部件间的交互。具体来说,TORA通过对齐学生网络(组装网络)和教师网络(预训练编码器)的表示,使得学生网络能够学习到教师网络中蕴含的几何和拓扑关系。这样,组装网络就能更好地理解部件间的关系,从而更有效地完成组装任务。

技术框架:TORA框架主要包含两个阶段:教师网络(预训练的3D编码器)和学生网络(流匹配的组装网络)。在训练过程中,首先使用预训练的3D编码器提取部件的特征表示,然后将这些特征表示作为教师信号,指导学生网络的训练。具体来说,TORA使用了两种对齐方法:token-wise余弦匹配和中心核对齐(CKA)损失。token-wise余弦匹配直接对齐学生和教师网络中对应token的特征向量,而CKA损失则对齐学生和教师网络中特征表示的相似性结构。通过这两种对齐方法,学生网络能够学习到教师网络中蕴含的拓扑关系信息。

关键创新:TORA的关键创新在于提出了一种拓扑优先的表示对齐框架,将预训练的3D编码器中的关系结构迁移到流匹配的组装网络中。与以往的方法相比,TORA显式地建模了部件间的关系,从而提高了组装的效率和准确性。此外,TORA还通过实验证明了几何和接触中心化的教师属性,而非语义分类能力,决定了对齐的有效性,并发现对齐在后期Transformer层中最有益。

关键设计:TORA的关键设计包括:1) 选择合适的预训练3D编码器作为教师网络,实验表明几何和接触中心化的编码器效果更好;2) 使用token-wise余弦匹配和CKA损失两种对齐方法,分别对齐特征向量和相似性结构;3) 在Transformer的后期层进行对齐,因为这些层更容易捕捉到空间结构;4) TORA没有引入额外的推理开销,因为它只在训练阶段使用教师网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TORA在五个基准测试上取得了最先进的性能,尤其是在零样本迁移到未见过的真实世界和合成数据集时,收益更为显著。实验结果表明,TORA能够显著提高3D形状组装的收敛速度(高达6.9倍)和准确性,并在领域转移下表现出更强的鲁棒性。例如,在几何、语义和对象间组装任务中,TORA都超越了现有的方法,证明了其有效性和泛化能力。

🎯 应用场景

TORA在3D形状组装领域具有广泛的应用前景,例如机器人装配、虚拟现实场景构建、CAD模型设计等。通过提高3D形状组装的效率和准确性,TORA可以降低人工成本,提高生产效率,并为用户提供更优质的体验。此外,TORA在零样本迁移方面的优势使其能够应用于更广泛的场景,例如在没有训练数据的情况下,将模型应用于新的数据集或领域。

📄 摘要(原文)

Flow-matching methods for 3D shape assembly learn point-wise velocity fields that transport parts toward assembled configurations, yet they receive no explicit guidance about which cross-part interactions should drive the motion. We introduce TORA, a topology-first representation alignment framework that distills relational structure from a frozen pretrained 3D encoder into the flow-matching backbone during training. We first realize this via simple instantiation, token-wise cosine matching, which injects the learned geometric descriptors from the teacher representation. We then extend to employ a Centered Kernel Alignment (CKA) loss to match the similarity structure between student and teacher representations for enhanced topological alignment. Through systematic probing of diverse 3D encoders, we show that geometry- and contact-centric teacher properties, not semantic classification ability, govern alignment effectiveness, and that alignment is most beneficial at later transformer layers where spatial structure naturally emerges. TORA introduces zero inference overhead while yielding two consistent benefits: faster convergence (up to 6.9$\times$) and improved accuracy in-distribution, along with greater robustness under domain shift. Experiments on five benchmarks spanning geometric, semantic, and inter-object assembly demonstrate state-of-the-art performance, with particularly pronounced gains in zero-shot transfer to unseen real-world and synthetic datasets. Project page:this https URL.