UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

📄 arXiv: 2603.23478v1 📥 PDF

作者: Jiaying Lin, Dan Xu

分类: cs.CV

发布日期: 2026-03-24


💡 一句话要点

UniFunc3D:统一的主动时空定位框架,用于3D功能分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D功能分割 主动学习 时空定位 多模态学习 大型语言模型 场景理解 人机交互

📋 核心要点

  1. 现有3D功能分割方法依赖碎片化流程,在任务解析初期缺乏视觉信息,限制了性能。
  2. UniFunc3D将多模态大语言模型作为主动观察者,统一语义、时空推理,实现联合任务分解。
  3. UniFunc3D通过主动时空定位和粗到细策略,在SceneFun3D上大幅超越现有方法,mIoU提升59.9%。

📝 摘要(中文)

3D场景中的功能分割要求智能体将隐式的自然语言指令定位到细粒度交互元素的精确掩码上。现有方法依赖于碎片化的流程,在初始任务解析期间存在视觉盲区。我们观察到这些方法受到单尺度、被动和启发式帧选择的限制。我们提出了UniFunc3D,一个统一的、免训练的框架,将多模态大型语言模型视为主动观察者。通过将语义、时间和空间推理整合到单个前向传递中,UniFunc3D执行联合推理,以在直接视觉证据中定位任务分解。我们的方法引入了具有粗到细策略的主动时空定位。这使得模型能够自适应地选择正确的视频帧,并专注于高细节的交互部分,同时保留消歧所需的全局上下文。在SceneFun3D上,UniFunc3D实现了最先进的性能,以相对59.9%的mIoU改进大幅超越了免训练和基于训练的方法,而无需任何特定于任务的训练。

🔬 方法详解

问题定义:论文旨在解决3D场景中基于自然语言指令的功能分割问题。现有方法通常采用碎片化的流程,例如先进行任务解析,再进行视觉定位,导致在初始阶段缺乏视觉信息的指导,容易产生视觉盲区。此外,现有方法通常采用单尺度特征、被动的帧选择策略以及启发式的规则,限制了模型的性能和泛化能力。

核心思路:UniFunc3D的核心思路是将多模态大型语言模型(MLLM)作为主动观察者,通过统一的框架整合语义、时间和空间推理。该框架通过主动地选择视频帧,并采用粗到细的策略关注高细节的交互部分,从而在直接视觉证据中定位任务分解。这种设计使得模型能够更好地理解自然语言指令,并将其与3D场景中的交互元素进行关联。

技术框架:UniFunc3D的整体框架包含以下几个主要模块:1) 多模态输入编码:将自然语言指令和3D场景的视频帧输入到MLLM中进行编码,提取语义和视觉特征。2) 主动时空定位:采用粗到细的策略,首先选择包含关键交互信息的视频帧,然后关注这些帧中的高细节交互部分。3) 联合推理:将语义和视觉特征进行融合,执行联合推理,预测3D场景中交互元素的掩码。

关键创新:UniFunc3D最重要的技术创新点在于其统一的主动时空定位框架。与现有方法相比,UniFunc3D不是被动地处理所有视频帧,而是主动地选择包含关键信息的帧,并关注高细节的交互部分。这种主动选择策略使得模型能够更有效地利用视觉信息,提高分割的准确性。此外,UniFunc3D采用粗到细的策略,首先关注全局上下文,然后逐步聚焦到细节部分,从而更好地处理复杂的3D场景。

关键设计:UniFunc3D的关键设计包括:1) 主动帧选择策略:采用某种机制(具体细节未知)来选择包含关键交互信息的视频帧。2) 粗到细的定位策略:首先关注全局上下文,然后逐步聚焦到细节部分。3) 损失函数:采用合适的损失函数来训练模型,例如交叉熵损失或Dice损失(具体细节未知)。4) MLLM的选择和配置:选择合适的MLLM,并进行适当的配置,以实现最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniFunc3D在SceneFun3D数据集上取得了显著的性能提升,以相对59.9%的mIoU改进大幅超越了现有的免训练和基于训练的方法。这一结果表明UniFunc3D在3D功能分割任务中具有强大的竞争力,并且无需任何特定于任务的训练,具有良好的泛化能力。该研究为3D场景理解和人机交互领域的研究提供了新的思路。

🎯 应用场景

UniFunc3D在机器人操作、虚拟现实、增强现实等领域具有广泛的应用前景。例如,可以应用于机器人辅助装配、虚拟场景交互、智能家居控制等任务。通过理解自然语言指令,UniFunc3D可以帮助机器人或虚拟助手更好地理解用户的意图,并执行相应的操作,从而提高人机交互的效率和自然性。该研究的未来影响在于推动3D场景理解和人机交互技术的发展。

📄 摘要(原文)

Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.