PanopticQuery: Unified Query-Time Reasoning for 4D Scenes

📄 arXiv: 2604.05638v1 📥 PDF

作者: Ruilin Tang, Yang Zhou, Zhong Ye, Wenxi Liu, Yan Huang, Shengfeng He

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

PanopticQuery:用于4D场景的统一查询时推理框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 4D场景理解 自然语言查询 多视角语义共识 动态场景重建 神经场优化

📋 核心要点

  1. 现有方法在4D重建中存在上下文推理的局限性,尤其是在处理交互、时间动作和空间关系等复杂语义时。
  2. PanopticQuery通过多视角语义共识机制,将2D语义预测聚合到4D空间,实现自然语言查询的语义理解。
  3. PanopticQuery在Panoptic-L4D基准测试中表现出色,有效处理了属性、动作、空间关系和多对象交互等复杂查询。

📝 摘要(中文)

本文提出PanopticQuery,一个用于4D场景中统一查询时推理的框架。该方法利用4D高斯溅射实现高保真动态重建,并引入多视角语义共识机制,通过聚合多个视角和时间帧的2D语义预测来理解自然语言查询。该过程过滤不一致的输出,强制执行几何一致性,并通过神经场优化将2D语义提升为结构化的4D grounding。此外,本文提出了Panoptic-L4D,一个新的用于动态场景中基于语言查询的基准。实验表明,PanopticQuery在处理复杂语言查询方面达到了新的state-of-the-art,能够有效处理属性、动作、空间关系和多对象交互。

🔬 方法详解

问题定义:现有方法在理解动态4D环境中的自然语言查询时,缺乏足够的上下文推理能力,尤其是在处理复杂的语义关系(如交互、时间动作和空间关系)时。它们难以将带有噪声的、视角相关的预测转化为全局一致的4D解释。

核心思路:PanopticQuery的核心在于利用多视角语义共识机制,将来自不同视角和时间帧的2D语义预测进行聚合,从而过滤掉不一致的输出,并强制执行几何一致性。通过这种方式,可以更准确地将自然语言查询与4D场景中的对象和动作关联起来。

技术框架:PanopticQuery框架主要包含以下几个阶段:1) 使用4D高斯溅射进行高保真动态场景重建;2) 从多个视角和时间帧提取2D语义预测;3) 通过多视角语义共识机制聚合2D语义预测,过滤噪声并增强一致性;4) 利用神经场优化将2D语义提升为结构化的4D grounding,从而实现对自然语言查询的理解。

关键创新:PanopticQuery的关键创新在于其多视角语义共识机制,该机制能够有效地整合来自不同视角和时间帧的语义信息,从而提高对复杂语义关系的理解能力。与现有方法相比,PanopticQuery能够更好地处理噪声和视角变化,从而实现更准确的4D场景理解。

关键设计:具体的技术细节包括:用于4D重建的4D高斯溅射的具体参数设置;多视角语义共识机制中使用的聚合策略(例如,注意力机制或加权平均);神经场优化的损失函数设计,用于强制执行几何一致性和语义一致性;以及Panoptic-L4D基准测试中使用的评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PanopticQuery在Panoptic-L4D基准测试中取得了显著的性能提升,尤其是在处理涉及属性、动作、空间关系和多对象交互的复杂语言查询时。实验结果表明,PanopticQuery能够有效地处理噪声和视角变化,从而实现更准确的4D场景理解,并在多个指标上超越了现有方法。

🎯 应用场景

PanopticQuery在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人理解周围环境,并根据自然语言指令执行任务。在自动驾驶领域,它可以提高车辆对复杂交通场景的理解能力,从而提高安全性。在VR/AR领域,它可以实现更自然、更直观的用户交互。

📄 摘要(原文)

Understanding dynamic 4D environments through natural language queries requires not only accurate scene reconstruction but also robust semantic grounding across space, time, and viewpoints. While recent methods using neural representations have advanced 4D reconstruction, they remain limited in contextual reasoning, especially for complex semantics such as interactions, temporal actions, and spatial relations. A key challenge lies in transforming noisy, view-dependent predictions into globally consistent 4D interpretations. We introduce PanopticQuery, a framework for unified query-time reasoning in 4D scenes. Our approach builds on 4D Gaussian Splatting for high-fidelity dynamic reconstruction and introduces a multi-view semantic consensus mechanism that grounds natural language queries by aggregating 2D semantic predictions across multiple views and time frames. This process filters inconsistent outputs, enforces geometric consistency, and lifts 2D semantics into structured 4D groundings via neural field optimization. To support evaluation, we present Panoptic-L4D, a new benchmark for language-based querying in dynamic scenes. Experiments demonstrate that PanopticQuery sets a new state of the art on complex language queries, effectively handling attributes, actions, spatial relationships, and multi-object interactions. A video demonstration is available in the supplementary materials.