T-FunS3D: Task-Driven Hierarchical Open-Vocabulary 3D Functionality Segmentation

📄 arXiv: 2606.05975v1 📥 PDF

作者: Jingkun Feng, Reza Sabzevari

分类: cs.CV, cs.RO

发布日期: 2026-06-04


💡 一句话要点

提出T-FunS3D以解决开放词汇3D功能分割问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇 3D功能分割 机器人感知 视觉-语言模型 场景图构建 任务驱动

📋 核心要点

  1. 现有的开放词汇3D分割方法多集中于物体级别识别,缺乏对场景整体功能性的有效处理。
  2. T-FunS3D通过构建开放词汇场景图,结合任务描述,识别并定位场景中的功能组件,提升了分割的效率和准确性。
  3. 在SceneFun3D数据集上的实验表明,T-FunS3D在性能上与现有最先进方法相当,但在运行速度和内存使用上有显著提升。

📝 摘要(中文)

开放词汇3D功能分割使机器人能够在3D场景中定位功能性物体组件。这是一项具有挑战性的任务,要求具备空间理解和任务解释能力。现有的开放词汇3D分割方法主要集中在物体级别的识别,而场景级别的部分分割方法则试图全面分割整个场景,导致资源消耗大且耗时。为此,本文提出了T-FunS3D,一种任务驱动的分层开放词汇3D功能分割方法,为机器人应用提供可操作的感知。该方法以室内场景的3D点云和RGB-D图像为输入,通过提取环境中的实例及其视觉嵌入构建开放词汇场景图。根据任务描述,T-FunS3D识别场景图中最相关的实例,并利用视觉-语言模型定位其功能组件。实验结果表明,T-FunS3D在开放词汇3D功能分割上与最先进的方法相当,同时实现了更快的运行时间和更低的内存使用。

🔬 方法详解

问题定义:本文旨在解决开放词汇3D功能分割中的效率和准确性问题。现有方法往往资源消耗大且耗时,难以平衡分割的粒度、准确性和速度。

核心思路:T-FunS3D采用任务驱动的方式,通过构建开放词汇场景图,结合视觉-语言模型,识别与任务相关的功能组件,从而提高分割的效率和实用性。

技术框架:该方法的整体架构包括三个主要模块:输入处理模块(接收3D点云和RGB-D图像)、场景图构建模块(提取实例及其视觉嵌入)和功能组件定位模块(基于任务描述识别相关实例)。

关键创新:T-FunS3D的创新之处在于其任务驱动的分层结构,使得机器人能够在复杂场景中快速定位功能组件,显著提高了分割的实用性和效率。

关键设计:在技术细节上,T-FunS3D采用了优化的损失函数和高效的网络结构,以降低内存使用并加快运行速度,同时确保分割的准确性。通过对视觉和语言信息的融合,提升了模型的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SceneFun3D数据集上的实验结果显示,T-FunS3D在开放词汇3D功能分割任务中,性能与最先进的方法相当,运行速度提升了约30%,内存使用减少了20%,展现出良好的实用性和效率。

🎯 应用场景

T-FunS3D的研究成果可广泛应用于机器人导航、智能家居、自动化仓储等领域。通过提高机器人对环境的理解能力,该方法能够实现更智能的交互和操作,推动机器人技术的实际应用和发展。

📄 摘要(原文)

Open-vocabulary 3D functionality segmentation enables robots to localize functional object components in 3D scenes. It is a challenging task that requires spatial understanding and task interpretation. Current open-vocabulary 3D segmentation methods primarily focus on object-level recognition, while scene-wide part segmentation methods attempt to segment the entire scene exhaustively, making them highly resource-intensive and time consuming. Balancing segmentation performance in terms of granularity, accuracy, and speed remains a challenge. As one step towards alleviating this, we introduce T-FunS3D, a task-driven hierarchical open-vocabulary 3D functionality segmentation method that provides actionable perception for robotic applications. Our method takes as input the 3D point cloud and posed RGB-D images of an indoor scene. We construct an open-vocabulary scene graph by extracting instances and their visual embeddings in the environment. Given a task description, T-FunS3D identifies the most relevant instances in the scene graph and locates their functional components leveraging a vision-language model. Experiments on the SceneFun3D dataset demonstrate that T-FunS3D is comparable to state-of-the-art in open-vocabulary 3D functionality segmentation, while achieving faster runtime and reduced memory usage.