AssemblyBench: Physics-Aware Assembly of Complex Industrial Objects
作者: Danrui Li, Jiahao Zhang, Bernhard Egger, Moitreya Chatterjee, Suhas Lohit, Tim K. Marks, Anoop Cherian
分类: cs.CV, cs.AI
发布日期: 2026-05-13
备注: Accepted at CVPR 2026
💡 一句话要点
AssemblyBench:用于复杂工业对象物理感知装配的合成数据集与AssemblyDyno模型
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工业装配 物理仿真 多模态学习 Transformer 机器人操作
📋 核心要点
- 现有装配数据集在形状复杂度和装配轨迹方面存在局限性,难以满足工业装配的需求。
- AssemblyDyno模型利用多模态信息(装配手册和3D形状)联合预测装配顺序和零件轨迹,实现物理可行的装配。
- 实验表明,AssemblyDyno在装配姿态估计和轨迹可行性方面优于现有方法,验证了其有效性。
📝 摘要(中文)
本文提出了AssemblyBench,一个包含2789个工业对象的合成数据集,该数据集包含多模态的装配手册、对应的3D零件模型以及零件装配轨迹。现有的数据集主要关注简化的场景,忽略了工业装配中形状的复杂性和装配轨迹。此外,本文还提出了一个基于Transformer的模型AssemblyDyno,该模型利用装配手册和每个零件的3D形状来联合预测装配顺序和零件装配轨迹。通过基于物理的仿真评估,AssemblyDyno在装配姿态估计和轨迹可行性方面均优于现有方法。
🔬 方法详解
问题定义:现有装配数据集和方法在处理复杂工业对象的装配任务时面临挑战。具体来说,现有数据集通常包含形状简单的对象,缺乏真实工业场景中常见的复杂几何形状和装配轨迹。此外,现有方法难以有效利用多模态信息(例如装配手册和3D形状)来预测物理上可行的装配顺序和轨迹,导致装配结果不准确或无法实现。
核心思路:本文的核心思路是构建一个大规模的合成数据集AssemblyBench,该数据集包含具有复杂形状的工业对象及其对应的多模态装配信息。同时,提出一个基于Transformer的模型AssemblyDyno,该模型能够有效融合装配手册和3D形状信息,从而联合预测装配顺序和零件装配轨迹,并保证轨迹的物理可行性。
技术框架:AssemblyDyno模型主要包含以下几个模块:1) 多模态特征提取模块:用于提取装配手册的文本特征和零件的3D形状特征。2) Transformer编码器:用于融合多模态特征,学习零件之间的关系和装配依赖。3) 装配顺序预测模块:基于编码后的特征预测零件的装配顺序。4) 装配轨迹预测模块:基于编码后的特征和装配顺序,预测每个零件的6-DoF装配轨迹。5) 物理仿真模块:用于评估预测的装配轨迹的物理可行性,并提供反馈信号用于模型训练。
关键创新:AssemblyDyno的关键创新在于:1) 联合预测装配顺序和轨迹,避免了传统方法中将两者分开处理导致的误差累积。2) 利用Transformer模型有效融合多模态信息,提高了模型对复杂装配关系的理解能力。3) 引入物理仿真模块,保证了预测的装配轨迹的物理可行性。
关键设计:AssemblyDyno模型使用Transformer编码器来融合多模态特征,编码器包含多个自注意力层和前馈神经网络层。装配顺序预测模块使用一个分类器来预测每个零件的装配顺序。装配轨迹预测模块使用一个回归器来预测每个零件的6-DoF姿态。物理仿真模块使用PyBullet等物理引擎来模拟装配过程,并评估轨迹的碰撞和稳定性。损失函数包括装配顺序预测的交叉熵损失、装配轨迹预测的均方误差损失以及物理可行性的惩罚项。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AssemblyDyno在AssemblyBench数据集上取得了显著的性能提升。在装配姿态估计方面,AssemblyDyno的准确率比现有方法提高了约10%。更重要的是,通过物理仿真评估,AssemblyDyno预测的装配轨迹的物理可行性显著提高,成功率达到85%,而现有方法的成功率仅为60%。这表明AssemblyDyno能够生成更可靠、更实用的装配方案。
🎯 应用场景
该研究成果可应用于自动化装配、机器人操作、虚拟装配培训等领域。通过利用AssemblyBench数据集和AssemblyDyno模型,可以提高机器人对复杂工业对象的装配能力,降低人工装配的成本和风险。此外,该研究还可以为虚拟装配培训提供更真实、更有效的学习环境,帮助工程师快速掌握装配技能。
📄 摘要(原文)
Assembling objects from parts requires understanding multimodal instructions, linking them to 3D components, and predicting physically plausible 6-DoF motions for each assembly step. Existing datasets focus on simplified scenarios, overlooking shape complexities and assembly trajectories in industrial assemblies. We introduce AssemblyBench, a synthetic dataset of 2,789 industrial objects with multimodal instruction manuals, corresponding 3D part models, and part assembly trajectories. We also propose a transformer-based model, AssemblyDyno, which uses the instructional manual and the 3D shape of each part to jointly predict assembly order and part assembly trajectories. AssemblyDyno outperforms prior works in both assembly pose estimation and trajectory feasibility, where the latter is evaluated by our physics-based simulations.