4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

📄 arXiv: 2512.05060v1 📥 PDF

作者: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang

分类: cs.CV

发布日期: 2025-12-04

备注: Code: https://github.com/hustvl/4DLangVGGT, Webpage: https://hustvl.github.io/4DLangVGGT

🔗 代码/项目: GITHUB


💡 一句话要点

提出4DLangVGGT,用于高效且可泛化的4D语言-视觉几何联合理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 4D场景理解 语言 grounding 视觉几何 Transformer 动态场景 语义场 开放词汇

📋 核心要点

  1. 现有4D语义场构建方法依赖于场景优化,泛化性差,难以扩展到真实场景。
  2. 提出4DLangVGGT,通过Transformer联合学习几何感知和语言对齐,无需场景优化。
  3. 实验表明,4DLangVGGT在泛化性和性能上均优于现有方法,并在多个数据集上取得了SOTA结果。

📝 摘要(中文)

本文提出4DLangVGGT,一种基于Transformer的前馈统一框架,用于4D语言 grounding,旨在解决现有4D语义场构建方法依赖于场景特定高斯splatting、泛化能力有限以及难以扩展到实际应用的问题。4DLangVGGT包含两个关键组件:4D视觉几何Transformer (StreamVGGT),用于捕获动态场景的时空几何表示;语义桥接解码器 (SBD),将几何感知特征投影到语言对齐的语义空间,增强语义可解释性并保持结构保真度。与依赖于昂贵的场景优化方法不同,4DLangVGGT可以在多个动态场景中联合训练,并直接应用于推理,从而实现部署效率和强大的泛化能力。在HyperNeRF和Neu3D数据集上的实验表明,该方法不仅泛化能力强,而且实现了最先进的性能,在per-scene训练下获得了高达2%的收益,在multi-scene训练下获得了1%的提升。

🔬 方法详解

问题定义:现有方法在构建4D语言场时,主要依赖于场景特定的高斯splatting,需要对每个场景进行单独优化,计算成本高昂,并且泛化能力有限,难以应用于大规模的真实动态场景。因此,如何构建一个能够高效泛化到不同动态场景的4D语言场是一个关键问题。

核心思路:本文的核心思路是利用Transformer架构,将几何感知和语言对齐整合到一个统一的框架中。通过学习动态场景的时空几何表示,并将其投影到语言对齐的语义空间,从而实现对4D场景的语义理解和开放词汇查询。这种方法避免了对每个场景进行单独优化,提高了泛化能力和部署效率。

技术框架:4DLangVGGT框架主要包含两个核心模块:StreamVGGT(4D视觉几何Transformer)和SBD(语义桥接解码器)。StreamVGGT负责捕获动态场景的时空几何表示,它接收4D场景的视觉和几何信息作为输入,通过Transformer结构学习场景的动态几何特征。SBD则将StreamVGGT提取的几何感知特征投影到语言对齐的语义空间,从而增强语义可解释性。整个框架通过联合训练,实现几何感知和语言理解的对齐。

关键创新:该方法最重要的创新点在于提出了一个端到端的Transformer框架,能够同时处理4D场景的几何信息和语言信息,并实现它们的对齐。与以往依赖于场景优化的方法不同,4DLangVGGT可以在多个动态场景中进行联合训练,从而实现更好的泛化能力。此外,语义桥接解码器(SBD)的设计,使得模型能够将几何特征映射到语言空间,从而实现开放词汇的查询。

关键设计:StreamVGGT采用Transformer结构,用于学习时空几何特征。SBD使用一个解码器结构,将几何特征投影到语言空间。损失函数包括几何重建损失和语言对齐损失,用于约束模型的学习。具体的参数设置和网络结构细节可以在论文的实验部分找到。训练过程中,采用多场景联合训练策略,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,4DLangVGGT在HyperNeRF和Neu3D数据集上均取得了state-of-the-art的性能。在per-scene训练下,性能提升高达2%,在multi-scene训练下,性能提升1%。这些结果验证了4DLangVGGT的有效性和泛化能力,表明其在4D场景理解方面具有显著优势。

🎯 应用场景

4DLangVGGT在具身智能、增强/虚拟现实和4D场景理解等领域具有广泛的应用前景。它可以用于构建动态环境的丰富语义表示,并支持在复杂场景中进行开放词汇查询。例如,机器人可以利用该技术理解动态环境中的物体和事件,从而更好地完成导航和交互任务。在AR/VR中,可以实现更逼真的场景渲染和更自然的交互体验。

📄 摘要(原文)

Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT