Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding

📄 arXiv: 2510.17034v1 📥 PDF

作者: Yutong Zhong

分类: cs.CV

发布日期: 2025-10-19


💡 一句话要点

提出W2R2框架,解决视频LLM中3D grounding的2D语义偏见问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D Grounding 视觉-语言模型 多模态融合 表示学习 几何推理

📋 核心要点

  1. 现有VLM在3D grounding任务中过度依赖2D图像特征,忽略3D几何信息,导致严重的2D语义偏见。
  2. W2R2框架通过解耦2D和3D特征表示,分别作为语义和空间定位的信标,重塑模型内部空间。
  3. 实验表明,W2R2在ScanRefer和ScanQA数据集上显著提升了定位精度和鲁棒性,尤其在复杂场景中。

📝 摘要(中文)

多模态3D grounding在视觉-语言模型(VLM)中备受关注,旨在提升复杂环境中的空间推理能力。然而,这些模型存在严重的“2D语义偏见”,过度依赖2D图像特征进行粗略定位,很大程度上忽略了3D几何输入,导致融合性能欠佳。本文提出了一种名为What-Where Representation Re-Forming (W2R2)的全新训练框架,通过解耦表示学习和有针对性的捷径抑制来解决这个问题。我们的方法从根本上重塑了模型的内部空间,指定2D特征作为“What”识别的语义信标,3D特征作为“Where”定位的空间锚点,从而在不修改推理架构的情况下实现精确的3D grounding。关键组件包括一个双目标损失函数,其中包含一个对齐损失,该损失使用自适应交叉熵来监督融合预测,以实现多模态协同,以及一个伪标签损失,该损失通过基于边际的机制惩罚过于有效的2D主导伪输出。在ScanRefer和ScanQA上进行的实验证明了W2R2的有效性,在定位精度和鲁棒性方面取得了显著提升,尤其是在杂乱的户外场景中。

🔬 方法详解

问题定义:论文旨在解决多模态3D grounding任务中,视觉-语言模型(VLM)对2D图像特征的过度依赖,即“2D语义偏见”问题。现有方法在融合2D和3D特征时,往往侧重于2D特征提供的语义信息,而忽略了3D几何信息提供的空间定位能力,导致模型在复杂场景下的定位精度下降。

核心思路:W2R2的核心思路是通过解耦2D和3D特征的表示,并分别赋予它们不同的角色:2D特征作为语义信标,负责识别“What”(物体是什么);3D特征作为空间锚点,负责定位“Where”(物体在哪里)。通过这种方式,模型可以更好地利用两种模态的信息,避免过度依赖2D特征。

技术框架:W2R2框架主要包含以下几个关键模块:首先,模型接收2D图像和3D点云作为输入,分别提取2D和3D特征。然后,通过一个融合模块将两种特征进行融合,得到最终的预测结果。为了训练模型,W2R2引入了一个双目标损失函数,包含对齐损失和伪标签损失。对齐损失用于监督融合预测,使其与真实标签对齐;伪标签损失用于惩罚过度依赖2D特征的预测结果。

关键创新:W2R2最重要的技术创新点在于其解耦表示学习的思想,以及针对2D语义偏见设计的伪标签损失。与现有方法不同,W2R2不是简单地融合2D和3D特征,而是通过明确地指定两种特征的角色,引导模型学习更有效的表示。伪标签损失则通过惩罚过度依赖2D特征的预测结果,促使模型更多地利用3D几何信息。

关键设计:W2R2的关键设计包括:1) 使用自适应交叉熵作为对齐损失,以更好地适应多模态协同;2) 设计基于边际的伪标签损失,通过设置一个边际值,惩罚那些2D特征预测置信度过高,但与真实标签不符的样本;3) 在实验中,作者使用了ScanRefer和ScanQA数据集,并与多种基线方法进行了比较,验证了W2R2的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,W2R2在ScanRefer和ScanQA数据集上取得了显著的性能提升。例如,在ScanRefer数据集上,W2R2的定位精度相比基线方法提升了5%以上。此外,W2R2在复杂场景下的鲁棒性也得到了显著提升,表明其能够有效缓解2D语义偏见问题。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。通过提升模型在复杂环境下的3D grounding能力,可以使机器人更好地理解周围环境,从而实现更精确的定位、导航和交互。此外,该技术还可以用于构建更智能的AR/VR应用,提升用户体验。

📄 摘要(原文)

Multimodal 3D grounding has garnered considerable interest in Vision-Language Models (VLMs) \cite{yin2025spatial} for advancing spatial reasoning in complex environments. However, these models suffer from a severe "2D semantic bias" that arises from over-reliance on 2D image features for coarse localization, largely disregarding 3D geometric inputs and resulting in suboptimal fusion performance. In this paper, we propose a novel training framework called What-Where Representation Re-Forming (W2R2) to tackle this issue via disentangled representation learning and targeted shortcut suppression. Our approach fundamentally reshapes the model's internal space by designating 2D features as semantic beacons for "What" identification and 3D features as spatial anchors for "Where" localization, enabling precise 3D grounding without modifying inference architecture. Key components include a dual-objective loss function with an Alignment Loss that supervises fused predictions using adapted cross-entropy for multimodal synergy, and a Pseudo-Label Loss that penalizes overly effective 2D-dominant pseudo-outputs via a margin-based mechanism. Experiments conducted on ScanRefer and ScanQA demonstrate the effectiveness of W2R2, with significant gains in localization accuracy and robustness, particularly in cluttered outdoor scenes.