Interact3D: Compositional 3D Generation of Interactive Objects

作者: Hui Shan, Keyang Luo, Ming Li, Sizhe Zheng, Yanwei Fu, Zhen Chen, Xiangru Huang

分类: cs.CV, cs.AI

发布日期: 2026-03-17

💡 一句话要点

Interact3D：用于交互对象组合式3D生成，解决遮挡和空间关系保持问题

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting)

关键词: 3D生成 组合对象 交互关系 碰撞避免 符号距离场 视觉语言模型 几何对齐

📋 核心要点

现有3D组合对象生成方法难以处理遮挡，导致隐藏区域几何细节损失，且无法保持对象间的空间关系。
Interact3D框架通过3D引导场景和两阶段组合流程，生成物理上合理的交互式3D组合对象。
实验表明，Interact3D能有效生成具有碰撞意识的组合，提升了几何保真度和空间关系一致性。

📝 摘要（中文）

3D生成领域的最新突破已经实现了高质量的独立资产合成。然而，从单张图像生成3D组合对象，尤其是在存在遮挡的情况下，仍然具有挑战性。现有方法通常会降低隐藏区域的几何细节，并且无法保持潜在的对象-对象空间关系（OOR）。我们提出了一种名为Interact3D的新框架，旨在生成物理上合理的交互式3D组合对象。我们的方法首先利用先进的生成先验来管理具有统一3D引导场景的高质量独立资产。为了物理地组合这些资产，我们引入了一个稳健的两阶段组合流程。基于3D引导场景，通过精确的全局到局部几何对齐（配准）来锚定主要对象，同时使用基于可微符号距离场（SDF）的优化来集成后续几何体，该优化明确地惩罚了几何体相交。为了减少具有挑战性的碰撞，我们进一步部署了一种闭环、代理式的细化策略。视觉-语言模型（VLM）自主分析组合场景的多视图渲染，制定有针对性的纠正提示，并指导图像编辑模块迭代地自我纠正生成流程。大量的实验表明，Interact3D成功地产生了有希望的、具有碰撞意识的组合，并提高了几何保真度和一致的空间关系。

🔬 方法详解

问题定义：论文旨在解决从单张图像生成具有复杂交互关系的3D组合对象的问题，尤其是在存在遮挡的情况下。现有方法的痛点在于难以保持隐藏区域的几何细节，并且无法准确地建模对象之间的空间关系（OOR），导致生成的3D场景不真实，缺乏物理合理性。

核心思路：Interact3D的核心思路是利用先进的生成先验来生成高质量的独立3D资产，然后通过一个两阶段的组合流程将这些资产物理性地组合在一起。该方法通过3D引导场景来约束生成过程，并使用可微SDF优化来避免几何体之间的碰撞。此外，还引入了基于视觉-语言模型的闭环细化策略，以进一步提高生成结果的质量。这样设计的目的是为了在保证几何细节的同时，确保对象之间的空间关系合理，并避免不自然的碰撞。

技术框架：Interact3D的整体框架包含以下几个主要模块： 1. 3D引导场景生成：利用生成先验生成高质量的独立3D资产，并构建一个统一的3D引导场景。 2. 两阶段组合流程： a. 几何对齐（Registration）：通过全局到局部的几何对齐，将主要对象锚定到3D引导场景中。 b. SDF优化：使用基于可微SDF的优化方法，将后续几何体集成到场景中，并显式地惩罚几何体之间的相交。 3. 闭环细化：使用视觉-语言模型分析组合场景的渲染结果，生成纠正提示，并指导图像编辑模块迭代地自我纠正生成流程。

关键创新：Interact3D的关键创新点在于： 1. 两阶段组合流程：通过几何对齐和SDF优化，实现了物理上合理的3D组合。 2. 基于视觉-语言模型的闭环细化：利用VLM的推理能力，自动检测并纠正生成结果中的错误。 3. 显式碰撞惩罚：通过SDF优化，显式地惩罚几何体之间的相交，从而避免了不自然的碰撞。

关键设计： 1. SDF优化：使用可微的SDF表示，可以方便地计算几何体之间的距离和相交情况，从而实现碰撞避免。 2. VLM提示工程：设计有效的VLM提示，使其能够准确地识别生成结果中的错误，并生成有针对性的纠正指令。 3. 图像编辑模块：使用图像编辑模块根据VLM的指令，对生成结果进行迭代的细化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Interact3D在生成具有碰撞意识的3D组合对象方面取得了显著的成果。与现有方法相比，Interact3D能够生成更高质量的几何细节，并保持更一致的空间关系。通过定量评估和定性比较，证明了Interact3D在几何保真度和物理合理性方面的优越性。具体性能数据和对比基线信息在论文中提供。

🎯 应用场景

Interact3D技术可应用于游戏开发、虚拟现实、室内设计、机器人仿真等领域。它可以帮助用户快速生成具有复杂交互关系的3D场景，例如，可以用于创建逼真的游戏环境、设计虚拟家居布局、训练机器人操作技能等。该技术有望降低3D内容创作的门槛，并促进相关产业的发展。

📄 摘要（原文）

Recent breakthroughs in 3D generation have enabled the synthesis of high-fidelity individual assets. However, generating 3D compositional objects from single images--particularly under occlusions--remains challenging. Existing methods often degrade geometric details in hidden regions and fail to preserve the underlying object-object spatial relationships (OOR). We present a novel framework Interact3D designed to generate physically plausible interacting 3D compositional objects. Our approach first leverages advanced generative priors to curate high-quality individual assets with a unified 3D guidance scene. To physically compose these assets, we then introduce a robust two-stage composition pipeline. Based on the 3D guidance scene, the primary object is anchored through precise global-to-local geometric alignment (registration), while subsequent geometries are integrated using a differentiable Signed Distance Field (SDF)-based optimization that explicitly penalizes geometry intersections. To reduce challenging collisions, we further deploy a closed-loop, agentic refinement strategy. A Vision-Language Model (VLM) autonomously analyzes multi-view renderings of the composed scene, formulates targeted corrective prompts, and guides an image editing module to iteratively self-correct the generation pipeline. Extensive experiments demonstrate that Interact3D successfully produces promising collsion-aware compositions with improved geometric fidelity and consistent spatial relationships.

Interact3D: Compositional 3D Generation of Interactive Objects

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理