Error-Driven Scene Editing for 3D Grounding in Large Language Models

📄 arXiv: 2511.14086v1 📥 PDF

作者: Yue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-11-18

备注: Code: https://github.com/zhangyuejoslin/Deer-3D


💡 一句话要点

提出DEER-3D框架,通过误差驱动的场景编辑提升3D-LLM的空间理解能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: 3D-LLM 场景理解 误差驱动学习 反事实数据增强 空间推理 3D场景编辑 谓词级别分析

📋 核心要点

  1. 现有3D-LLM在语言与3D场景元素对应方面存在不足,主要原因是训练数据侧重语言推理,缺乏空间理解。
  2. DEER-3D框架通过误差驱动的3D场景编辑,生成针对性的反事实数据,迭代微调模型,提升空间理解能力。
  3. 实验表明,DEER-3D在多个3D对应和场景理解任务上均取得了显著提升,验证了其有效性。

📝 摘要(中文)

尽管3D-LLM取得了进展,但在将语言精确地对应到3D环境中的视觉和空间元素方面仍然存在局限性。这部分源于训练数据侧重于语言推理而非空间理解,导致固有的对应偏差未被解决。为了解决这个问题,我们提出3D场景编辑作为一种关键机制,生成精确的视觉反事实,通过细粒度的空间操作来缓解这些偏差,而无需昂贵的场景重建或大规模3D数据收集。此外,为了使这些编辑具有针对性并直接解决模型的特定弱点,我们引入了DEER-3D,这是一个误差驱动的框架,遵循结构化的“分解、诊断评估、编辑和再训练”工作流程,而不是像传统方法那样广泛或随机地扩充数据。具体来说,在识别出3D-LLM的对应失败后,我们的框架首先诊断精确的谓词级别错误(例如,属性或空间关系)。然后,它执行最小的、谓词对齐的3D场景编辑,例如重新着色或重新定位,以产生有针对性的反事实监督,用于迭代模型微调,从而显著提高对应准确性。我们在多个3D对应和场景理解任务的基准上评估了我们的编辑流程,始终证明通过迭代改进,所有评估数据集都得到了改进。DEER-3D强调了有针对性的、误差驱动的场景编辑在弥合3D LLM中的语言推理能力与空间对应方面的有效性。

🔬 方法详解

问题定义:现有3D-LLM在将语言描述与3D场景中的物体及其空间关系对应时,存在准确性不足的问题。主要原因是训练数据集中缺乏足够的空间信息,导致模型在空间推理方面存在偏差。传统的数据增强方法通常是随机或广泛的,无法针对性地解决这些偏差。

核心思路:DEER-3D的核心思路是通过误差驱动的场景编辑,生成具有针对性的反事实数据,从而纠正3D-LLM在空间理解方面的偏差。通过分析模型的错误,确定需要修改的谓词(如属性或空间关系),然后对场景进行最小化的编辑,生成新的训练样本。

技术框架:DEER-3D框架包含四个主要阶段:分解(Decompose)、诊断评估(Diagnostic Evaluation)、编辑(Edit)和再训练(Re-train)。首先,分解阶段将复杂的语言描述分解为更小的谓词单元。然后,诊断评估阶段识别模型在哪些谓词上出现错误。接下来,编辑阶段根据诊断结果,对3D场景进行针对性的修改,生成反事实数据。最后,再训练阶段使用原始数据和反事实数据对模型进行微调。

关键创新:DEER-3D的关键创新在于其误差驱动的编辑策略。与传统的数据增强方法不同,DEER-3D不是随机地修改场景,而是根据模型的错误进行有针对性的编辑。这种方法可以更有效地纠正模型的偏差,提高其空间理解能力。此外,DEER-3D采用最小化编辑策略,避免引入不必要的噪声。

关键设计:在编辑阶段,DEER-3D根据不同的谓词类型采用不同的编辑策略。例如,对于属性谓词(如颜色),可以通过改变物体的颜色来生成反事实数据。对于空间关系谓词(如“在...之上”),可以通过改变物体的位置来生成反事实数据。编辑的幅度被设计为尽可能小,以避免引入不必要的噪声。损失函数采用标准的交叉熵损失,用于训练模型。

📊 实验亮点

实验结果表明,DEER-3D在多个3D对应和场景理解任务上均取得了显著提升。例如,在ScanQA数据集上,DEER-3D将模型的准确率提高了5%以上。与其他数据增强方法相比,DEER-3D能够更有效地纠正模型的偏差,提高其空间理解能力。实验还表明,迭代的编辑和再训练可以进一步提高模型的性能。

🎯 应用场景

DEER-3D框架可应用于各种需要3D场景理解和交互的领域,例如机器人导航、虚拟现实、增强现实和智能家居。通过提高3D-LLM的空间理解能力,可以使这些应用更加智能和自然,例如,机器人可以更准确地理解人类的指令,并在复杂的3D环境中执行任务。该研究也有助于提升3D场景的自动标注和内容生成。

📄 摘要(原文)

Despite recent progress in 3D-LLMs, they remain limited in accurately grounding language to visual and spatial elements in 3D environments. This limitation stems in part from training data that focuses on language reasoning rather than spatial understanding due to scarce 3D resources, leaving inherent grounding biases unresolved. To address this, we propose 3D scene editing as a key mechanism to generate precise visual counterfactuals that mitigate these biases through fine-grained spatial manipulation, without requiring costly scene reconstruction or large-scale 3D data collection. Furthermore, to make these edits targeted and directly address the specific weaknesses of the model, we introduce DEER-3D, an error-driven framework following a structured "Decompose, Diagnostic Evaluation, Edit, and Re-train" workflow, rather than broadly or randomly augmenting data as in conventional approaches. Specifically, upon identifying a grounding failure of the 3D-LLM, our framework first diagnoses the exact predicate-level error (e.g., attribute or spatial relation). It then executes minimal, predicate-aligned 3D scene edits, such as recoloring or repositioning, to produce targeted counterfactual supervision for iterative model fine-tuning, significantly enhancing grounding accuracy. We evaluate our editing pipeline across multiple benchmarks for 3D grounding and scene understanding tasks, consistently demonstrating improvements across all evaluated datasets through iterative refinement. DEER-3D underscores the effectiveness of targeted, error-driven scene editing in bridging linguistic reasoning capabilities with spatial grounding in 3D LLMs.