GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes

作者: Huajian Zeng, Abhishek Saroha, Daniel Cremers, Xi Wang

分类: cs.CV, cs.RO

发布日期: 2026-03-18

备注: Accpeted by 3DV 2026. Project Page: https://huajian-zeng.github.io/projects/gmt/

💡 一句话要点

提出GMT框架以解决3D场景中6-DOF物体轨迹合成问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 6自由度 物体轨迹合成 多模态变换器 3D场景理解 机器人操作 空间精度 方向控制

📋 核心要点

现有方法在合成6-DOF物体轨迹时，往往依赖于2D或部分3D表示，导致无法准确捕捉场景几何信息。
本文提出的GMT框架通过结合多模态信息，生成连续的6-DOF物体轨迹，提升了轨迹的精确性和可控性。
实验结果显示，GMT在空间精度和方向控制上显著优于现有基线，展示了强大的泛化能力。

📝 摘要（中文）

在3D环境中合成可控的6自由度物体操作轨迹对于机器人与复杂场景的交互至关重要，但由于需要准确的空间推理、物理可行性和多模态场景理解，这一任务仍然具有挑战性。现有方法通常依赖于2D或部分3D表示，限制了其捕捉完整场景几何形状的能力，从而影响轨迹的精确性。本文提出了GMT，一个多模态变换器框架，通过联合利用3D边界框几何、点云上下文、语义物体类别和目标末端姿态，生成逼真且以目标为导向的物体轨迹。该模型将轨迹表示为连续的6-DOF姿态序列，并采用定制的条件策略，融合几何、语义、上下文和目标导向信息。大量实验表明，GMT在空间精度和方向控制方面显著优于现有的人类运动和人机交互基线，建立了基于学习的操作规划的新基准。

🔬 方法详解

问题定义：本文旨在解决在复杂3D场景中合成可控的6自由度物体操作轨迹的问题。现有方法由于依赖于2D或部分3D表示，无法全面捕捉场景几何信息，导致轨迹精度不足。

核心思路：GMT框架的核心思路是通过多模态信息的联合利用，生成以目标为导向的物体轨迹。通过将几何、语义、上下文和目标信息融合，模型能够更好地理解和生成轨迹。

技术框架：GMT的整体架构包括多个模块，首先是输入的3D边界框和点云数据，然后通过多模态变换器进行处理，最后输出连续的6-DOF姿态序列。

关键创新：GMT的主要创新在于其定制的条件策略，能够有效融合多种信息源，从而提升轨迹生成的精度和可控性。这与现有方法的单一信息源依赖形成了鲜明对比。

关键设计：在模型设计中，采用了特定的损失函数以优化轨迹的空间精度和方向控制，同时在网络结构上进行了优化，以适应多模态输入的处理需求。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GMT在空间精度和方向控制方面显著优于现有的基线方法，如CHOIS和GIMO，具体提升幅度达到XX%（具体数据未知），为基于学习的操作规划设立了新的基准。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自动化制造、虚拟现实等。通过提升机器人在复杂环境中的操作能力，GMT框架能够为智能机器人在实际应用中提供更高的灵活性和效率，推动相关技术的发展。

📄 摘要（原文）

Synthesizing controllable 6-DOF object manipulation trajectories in 3D environments is essential for enabling robots to interact with complex scenes, yet remains challenging due to the need for accurate spatial reasoning, physical feasibility, and multimodal scene understanding. Existing approaches often rely on 2D or partial 3D representations, limiting their ability to capture full scene geometry and constraining trajectory precision. We present GMT, a multimodal transformer framework that generates realistic and goal-directed object trajectories by jointly leveraging 3D bounding box geometry, point cloud context, semantic object categories, and target end poses. The model represents trajectories as continuous 6-DOF pose sequences and employs a tailored conditioning strategy that fuses geometric, semantic, contextual, and goaloriented information. Extensive experiments on synthetic and real-world benchmarks demonstrate that GMT outperforms state-of-the-art human motion and human-object interaction baselines, such as CHOIS and GIMO, achieving substantial gains in spatial accuracy and orientation control. Our method establishes a new benchmark for learningbased manipulation planning and shows strong generalization to diverse objects and cluttered 3D environments. Project page: https://huajian- zeng.github. io/projects/gmt/.

GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理