Interact3D: Compositional 3D Generation of Interactive Objects
作者: Hui Shan, Keyang Luo, Ming Li, Sizhe Zheng, Yanwei Fu, Zhen Chen, Xiangru Huang
分类: cs.CV, cs.AI
发布日期: 2026-03-17
💡 一句话要点
Interact3D:用于交互对象组合式3D生成,解决遮挡和空间关系保持问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting)
关键词: 3D生成 组合对象 交互关系 碰撞避免 符号距离场 视觉语言模型 几何对齐
📋 核心要点
- 现有3D组合对象生成方法难以处理遮挡,导致隐藏区域几何细节损失,且无法保持对象间的空间关系。
- Interact3D框架通过3D引导场景和两阶段组合流程,生成物理上合理的交互式3D组合对象。
- 实验表明,Interact3D能有效生成具有碰撞意识的组合,提升了几何保真度和空间关系一致性。
📝 摘要(中文)
3D生成领域的最新突破已经实现了高质量的独立资产合成。然而,从单张图像生成3D组合对象,尤其是在存在遮挡的情况下,仍然具有挑战性。现有方法通常会降低隐藏区域的几何细节,并且无法保持潜在的对象-对象空间关系(OOR)。我们提出了一种名为Interact3D的新框架,旨在生成物理上合理的交互式3D组合对象。我们的方法首先利用先进的生成先验来管理具有统一3D引导场景的高质量独立资产。为了物理地组合这些资产,我们引入了一个稳健的两阶段组合流程。基于3D引导场景,通过精确的全局到局部几何对齐(配准)来锚定主要对象,同时使用基于可微符号距离场(SDF)的优化来集成后续几何体,该优化明确地惩罚了几何体相交。为了减少具有挑战性的碰撞,我们进一步部署了一种闭环、代理式的细化策略。视觉-语言模型(VLM)自主分析组合场景的多视图渲染,制定有针对性的纠正提示,并指导图像编辑模块迭代地自我纠正生成流程。大量的实验表明,Interact3D成功地产生了有希望的、具有碰撞意识的组合,并提高了几何保真度和一致的空间关系。
🔬 方法详解
问题定义:论文旨在解决从单张图像生成具有复杂交互关系的3D组合对象的问题,尤其是在存在遮挡的情况下。现有方法的痛点在于难以保持隐藏区域的几何细节,并且无法准确地建模对象之间的空间关系(OOR),导致生成的3D场景不真实,缺乏物理合理性。
核心思路:Interact3D的核心思路是利用先进的生成先验来生成高质量的独立3D资产,然后通过一个两阶段的组合流程将这些资产物理性地组合在一起。该方法通过3D引导场景来约束生成过程,并使用可微SDF优化来避免几何体之间的碰撞。此外,还引入了基于视觉-语言模型的闭环细化策略,以进一步提高生成结果的质量。这样设计的目的是为了在保证几何细节的同时,确保对象之间的空间关系合理,并避免不自然的碰撞。
技术框架:Interact3D的整体框架包含以下几个主要模块: 1. 3D引导场景生成:利用生成先验生成高质量的独立3D资产,并构建一个统一的3D引导场景。 2. 两阶段组合流程: a. 几何对齐(Registration):通过全局到局部的几何对齐,将主要对象锚定到3D引导场景中。 b. SDF优化:使用基于可微SDF的优化方法,将后续几何体集成到场景中,并显式地惩罚几何体之间的相交。 3. 闭环细化:使用视觉-语言模型分析组合场景的渲染结果,生成纠正提示,并指导图像编辑模块迭代地自我纠正生成流程。
关键创新:Interact3D的关键创新点在于: 1. 两阶段组合流程:通过几何对齐和SDF优化,实现了物理上合理的3D组合。 2. 基于视觉-语言模型的闭环细化:利用VLM的推理能力,自动检测并纠正生成结果中的错误。 3. 显式碰撞惩罚:通过SDF优化,显式地惩罚几何体之间的相交,从而避免了不自然的碰撞。
关键设计: 1. SDF优化:使用可微的SDF表示,可以方便地计算几何体之间的距离和相交情况,从而实现碰撞避免。 2. VLM提示工程:设计有效的VLM提示,使其能够准确地识别生成结果中的错误,并生成有针对性的纠正指令。 3. 图像编辑模块:使用图像编辑模块根据VLM的指令,对生成结果进行迭代的细化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Interact3D在生成具有碰撞意识的3D组合对象方面取得了显著的成果。与现有方法相比,Interact3D能够生成更高质量的几何细节,并保持更一致的空间关系。通过定量评估和定性比较,证明了Interact3D在几何保真度和物理合理性方面的优越性。具体性能数据和对比基线信息在论文中提供。
🎯 应用场景
Interact3D技术可应用于游戏开发、虚拟现实、室内设计、机器人仿真等领域。它可以帮助用户快速生成具有复杂交互关系的3D场景,例如,可以用于创建逼真的游戏环境、设计虚拟家居布局、训练机器人操作技能等。该技术有望降低3D内容创作的门槛,并促进相关产业的发展。
📄 摘要(原文)
Recent breakthroughs in 3D generation have enabled the synthesis of high-fidelity individual assets. However, generating 3D compositional objects from single images--particularly under occlusions--remains challenging. Existing methods often degrade geometric details in hidden regions and fail to preserve the underlying object-object spatial relationships (OOR). We present a novel framework Interact3D designed to generate physically plausible interacting 3D compositional objects. Our approach first leverages advanced generative priors to curate high-quality individual assets with a unified 3D guidance scene. To physically compose these assets, we then introduce a robust two-stage composition pipeline. Based on the 3D guidance scene, the primary object is anchored through precise global-to-local geometric alignment (registration), while subsequent geometries are integrated using a differentiable Signed Distance Field (SDF)-based optimization that explicitly penalizes geometry intersections. To reduce challenging collisions, we further deploy a closed-loop, agentic refinement strategy. A Vision-Language Model (VLM) autonomously analyzes multi-view renderings of the composed scene, formulates targeted corrective prompts, and guides an image editing module to iteratively self-correct the generation pipeline. Extensive experiments demonstrate that Interact3D successfully produces promising collsion-aware compositions with improved geometric fidelity and consistent spatial relationships.