SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

作者: Jun Luo, Jiaxiang Tang, Ruijie Lu, Gang Zeng

分类: cs.CV

发布日期: 2026-03-12

备注: Code: https://github.com/ROUJINN/SceneAssistant

🔗 代码/项目: GITHUB

💡 一句话要点

SceneAssistant：一种用于开放词汇3D场景生成的视觉反馈Agent

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 文本到3D场景生成 视觉反馈 视觉语言模型 开放词汇 3D场景合成

📋 核心要点

现有文本到3D场景生成方法受限于领域或预定义空间关系，难以处理开放词汇场景。
SceneAssistant利用视觉反馈驱动的Agent，结合3D对象生成模型和VLM的空间推理能力，实现开放词汇场景生成。
实验表明，该方法能生成多样、高质量的3D场景，并在定性和定量评估中优于现有方法。

📝 摘要（中文）

本文提出了一种名为SceneAssistant的视觉反馈驱动Agent，用于开放词汇3D场景生成。现有方法在很大程度上受到领域限制或依赖于预定义的空间关系，限制了它们在不受约束的开放词汇3D场景合成中的能力。该框架利用先进的3D对象生成模型以及视觉语言模型（VLM）的空间推理和规划能力。为了实现开放词汇场景组合，我们为VLM提供了一套全面的原子操作（例如，缩放、旋转、聚焦）。在每个交互步骤中，VLM接收渲染的视觉反馈并采取相应的行动，迭代地细化场景，以实现更连贯的空间排列和与输入文本的更好对齐。实验结果表明，该方法可以生成多样、开放词汇和高质量的3D场景。定性分析和定量人工评估都证明了该方法优于现有方法。此外，该方法允许用户指示Agent基于自然语言命令编辑现有场景。

🔬 方法详解

问题定义：现有文本到3D场景生成方法难以处理开放词汇场景，主要痛点在于领域限制和对预定义空间关系的依赖，导致无法灵活地根据自然语言描述生成复杂的3D场景。

核心思路：核心思路是利用视觉反馈驱动的Agent，通过迭代地接收场景渲染的视觉反馈，并结合VLM的空间推理和规划能力，逐步优化3D场景的布局和对象属性，使其与输入的文本描述对齐。这种迭代式的优化过程允许Agent在没有预定义规则的情况下，探索更广泛的场景配置。

技术框架：SceneAssistant框架主要包含以下几个模块：1) 3D对象生成模型，用于生成场景中的各个3D对象；2) 视觉语言模型（VLM），负责根据文本描述和视觉反馈进行空间推理和规划，并生成相应的原子操作指令；3) 场景渲染模块，用于将当前的3D场景渲染成图像，作为VLM的视觉反馈；4) 原子操作执行模块，负责执行VLM生成的原子操作指令，例如缩放、旋转、移动对象等。整个流程是一个迭代的过程，VLM根据视觉反馈不断调整场景，直到满足文本描述的要求。

关键创新：最重要的技术创新点在于将视觉反馈机制引入到文本到3D场景生成中，使得Agent能够通过观察场景的变化来学习和优化场景布局。与现有方法相比，该方法不需要预定义复杂的空间关系规则，而是通过VLM的推理能力和视觉反馈的指导，自动地探索和学习合适的场景配置。

关键设计：关键设计包括：1) 定义了一套全面的原子操作，例如Scale, Rotate, FocusOn等，用于控制3D对象的属性和位置；2) 设计了合适的视觉反馈机制，使得VLM能够有效地感知场景的变化；3) 选择了合适的VLM模型，并对其进行了微调，以提高其在3D场景生成任务中的性能。具体的参数设置和损失函数等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SceneAssistant能够生成多样、开放词汇和高质量的3D场景。定性分析显示，生成的场景在空间排列和对象属性上与文本描述高度一致。定量人工评估也表明，SceneAssistant在场景质量和与文本描述的对齐程度上优于现有方法。具体的性能数据和提升幅度在论文中未明确给出，属于未知信息。

🎯 应用场景

该研究成果可应用于数字内容创作、游戏开发、虚拟现实/增强现实等领域。用户可以通过自然语言指令快速生成和编辑3D场景，极大地降低了3D内容创作的门槛。未来，该技术有望应用于自动化设计、机器人导航等更广泛的领域。

📄 摘要（原文）

Text-to-3D scene generation from natural language is highly desirable for digital content creation. However, existing methods are largely domain-restricted or reliant on predefined spatial relationships, limiting their capacity for unconstrained, open-vocabulary 3D scene synthesis. In this paper, we introduce SceneAssistant, a visual-feedback-driven agent designed for open-vocabulary 3D scene generation. Our framework leverages modern 3D object generation model along with the spatial reasoning and planning capabilities of Vision-Language Models (VLMs). To enable open-vocabulary scene composition, we provide the VLMs with a comprehensive set of atomic operations (e.g., Scale, Rotate, FocusOn). At each interaction step, the VLM receives rendered visual feedback and takes actions accordingly, iteratively refining the scene to achieve more coherent spatial arrangements and better alignment with the input text. Experimental results demonstrate that our method can generate diverse, open-vocabulary, and high-quality 3D scenes. Both qualitative analysis and quantitative human evaluations demonstrate the superiority of our approach over existing methods. Furthermore, our method allows users to instruct the agent to edit existing scenes based on natural language commands. Our code is available at https://github.com/ROUJINN/SceneAssistant

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理