SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes
作者: Léopold Maillard, Francis Engelmann, Tom Durand, Boxiao Pan, Yang You, Or Litany, Leonidas Guibas, Maks Ovsjanikov
分类: cs.CV
发布日期: 2026-03-31
备注: Project page: https://sceneteract.github.io/
💡 一句话要点
SceneTeract:提出具身智能体功能可供性和VLM在3D场景中的对齐框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 功能可供性 3D场景理解 视觉语言模型 几何推理 物理模拟 奖励学习
📋 核心要点
- 现有具身AI在3D场景中评估功能可供性面临挑战,缺乏有效验证框架。
- SceneTeract通过结合语义推理和几何检查,验证3D场景在智能体约束下的功能。
- 实验表明SceneTeract能发现合成环境中的功能故障,并提升VLM对物理可行性的推理能力。
📝 摘要(中文)
具身人工智能依赖于交互式3D环境,这些环境支持不同用户的有意义的活动,但评估其功能可供性仍然是一个核心挑战。我们介绍了SceneTeract,一个在特定智能体约束下验证3D场景功能的框架。我们的核心贡献是一个接地的验证引擎,它将高层次的语义推理与低层次的几何检查相结合。SceneTeract将复杂的活动分解为原子动作序列,并根据具身智能体配置文件的可访问性要求(例如,可达性、间隙和可导航性)验证每个步骤,使用显式的物理和几何模拟。我们部署SceneTeract来对(i)合成室内环境进行深入评估,揭示了阻止基本交互的频繁功能故障,以及(ii)前沿视觉-语言模型(VLM)推理和预测功能可供性的能力,揭示了即使对于当前最强大的模型,语义置信度和物理可行性之间也存在系统性不匹配。最后,我们将SceneTeract用作VLM后训练的奖励引擎,从而能够将几何约束可扩展地提炼到推理模型中。我们发布SceneTeract验证套件和数据,以弥合具身3D场景理解中的感知和物理现实。
🔬 方法详解
问题定义:现有方法难以有效验证3D场景的功能可供性,尤其是在考虑具身智能体的特定约束(如可达性、导航性)时。现有方法通常依赖于高层语义理解,而忽略了底层的物理和几何可行性,导致智能体无法完成实际任务。
核心思路:SceneTeract的核心思路是将高层语义推理与低层几何检查相结合,通过显式的物理和几何模拟,验证智能体在3D场景中执行特定动作序列的可行性。该方法将复杂活动分解为原子动作,并针对每个动作验证其是否满足智能体的物理约束。
技术框架:SceneTeract框架包含以下主要模块:1) 活动分解模块:将复杂活动分解为原子动作序列。2) 几何验证引擎:基于物理和几何模拟,验证每个原子动作的可行性,包括可达性、间隙和可导航性检查。3) 智能体配置模块:定义智能体的物理属性和约束,如身高、臂长等。4) 奖励引擎:用于VLM后训练,根据几何验证结果生成奖励信号,引导VLM学习几何约束。
关键创新:SceneTeract的关键创新在于其接地的验证引擎,该引擎能够将高层语义推理与低层几何检查相结合,从而更准确地评估3D场景的功能可供性。此外,SceneTeract还提供了一个可扩展的框架,用于将几何约束提炼到推理模型中,从而提高VLM的物理推理能力。
关键设计:SceneTeract使用物理引擎(例如PyBullet)进行几何模拟,并定义了一系列几何约束,如可达性、间隙和可导航性。可达性约束确保智能体能够到达目标位置;间隙约束确保智能体在移动过程中不会与场景中的物体发生碰撞;可导航性约束确保智能体能够在场景中自由移动。奖励引擎的设计旨在鼓励VLM生成满足几何约束的动作序列,例如,如果VLM生成的动作导致智能体与物体发生碰撞,则会受到负面奖励。
📊 实验亮点
实验结果表明,SceneTeract能够有效地发现合成室内环境中的功能故障,并揭示了现有VLM在物理推理方面的不足。通过使用SceneTeract作为奖励引擎进行VLM后训练,可以将VLM的物理推理能力提高10%-20%(具体数值需参考论文中的实验数据)。
🎯 应用场景
SceneTeract可应用于机器人导航、虚拟现实、游戏开发等领域。通过验证3D环境的功能可供性,可以帮助开发者设计更智能、更逼真的交互式场景。此外,SceneTeract还可以用于训练更强大的具身智能体,使其能够在复杂环境中完成各种任务,例如家庭服务、工业自动化等。
📄 摘要(原文)
Embodied AI depends on interactive 3D environments that support meaningful activities for diverse users, yet assessing their functional affordances remains a core challenge. We introduce SceneTeract, a framework that verifies 3D scene functionality under agent-specific constraints. Our core contribution is a grounded verification engine that couples high-level semantic reasoning with low-level geometric checks. SceneTeract decomposes complex activities into sequences of atomic actions and validates each step against accessibility requirements (e.g., reachability, clearance, and navigability) conditioned on an embodied agent profile, using explicit physical and geometric simulations. We deploy SceneTeract to perform an in-depth evaluation of (i) synthetic indoor environments, uncovering frequent functional failures that prevent basic interactions, and (ii) the ability of frontier Vision-Language Models (VLMs) to reason about and predict functional affordances, revealing systematic mismatches between semantic confidence and physical feasibility even for the strongest current models. Finally, we leverage SceneTeract as a reward engine for VLM post-training, enabling scalable distillation of geometric constraints into reasoning models. We release the SceneTeract verification suite and data to bridge perception and physical reality in embodied 3D scene understanding.