SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting

📄 arXiv: 2507.23772v1 📥 PDF

作者: Di Li, Jie Feng, Jiahao Chen, Weisheng Dong, Guanbin Li, Yuhui Zheng, Mingtao Feng, Guangming Shi

分类: cs.CV

发布日期: 2025-07-31


💡 一句话要点

SeqAffordSplat:基于3D高斯溅射的场景级序列可供性推理

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D高斯溅射 可供性推理 序列任务 大型语言模型 机器人操作

📋 核心要点

  1. 现有3D高斯溅射可供性推理方法局限于单对象单步交互,无法处理真实场景中的长时程多对象任务。
  2. SeqSplatNet利用大型语言模型自回归生成文本和分割token,指导条件解码器生成3D可供性掩码序列。
  3. 通过条件几何重建预训练和2D视觉特征注入,增强模型对复杂几何和语义信息的理解能力,提升推理性能。

📝 摘要(中文)

本文提出了序列3D高斯可供性推理这一新任务,旨在解决现有方法在3D高斯溅射(3DGS)上进行可供性推理时,仅限于单对象、单步交互的局限性。为此,构建了SeqAffordSplat,一个包含1800+场景的大规模基准,以支持复杂3DGS环境中长时程可供性理解的研究。同时,提出了SeqSplatNet,一个端到端框架,能够直接将指令映射到一系列3D可供性掩码。SeqSplatNet采用大型语言模型自回归地生成文本,并穿插特殊的分割token,引导条件解码器生成相应的3D掩码。为了处理复杂的场景几何,引入了条件几何重建预训练策略,使模型能够从已知的几何观测中重建完整的可供性区域掩码,从而构建鲁棒的几何先验。此外,为了解决语义歧义,设计了一种特征注入机制,从2D视觉基础模型(VFM)中提取丰富的语义特征,并将其多尺度地融合到3D解码器中。大量实验表明,该方法在具有挑战性的基准测试中取得了新的state-of-the-art,有效地将可供性推理从单步交互推进到场景级别的复杂序列任务。

🔬 方法详解

问题定义:现有基于3D高斯溅射的可供性推理方法主要关注单对象、单步交互,无法处理真实场景中涉及多个对象和多个步骤的复杂任务。这些方法缺乏对长时程交互的建模能力,难以应用于实际的机器人操作等领域。

核心思路:本文的核心思路是将可供性推理扩展到序列任务,即给定一个指令,模型需要预测一系列与该指令相关的3D可供性掩码。通过引入大型语言模型,将指令分解为一系列子任务,并利用自回归的方式逐步生成每个子任务对应的可供性掩码。这种方法能够有效地建模长时程交互,并处理复杂场景中的多对象关系。

技术框架:SeqSplatNet框架主要包含以下几个模块:1) 大型语言模型(LLM):用于将指令分解为一系列文本和分割token。2) 条件解码器:根据LLM的输出,生成对应的3D可供性掩码。3) 条件几何重建预训练:用于学习场景的几何先验知识。4) 2D视觉特征注入:用于融合2D视觉基础模型的语义信息。整个流程是端到端的,模型可以直接从指令映射到一系列3D可供性掩码。

关键创新:本文的关键创新在于:1) 提出了序列3D高斯可供性推理任务,并构建了大规模基准数据集SeqAffordSplat。2) 提出了SeqSplatNet框架,能够有效地处理长时程交互和复杂场景。3) 引入了条件几何重建预训练和2D视觉特征注入,提升了模型的性能。与现有方法相比,本文的方法能够处理更复杂的任务,并取得更好的性能。

关键设计:在条件几何重建预训练中,模型需要根据部分几何观测重建完整的可供性区域掩码。损失函数采用Dice loss和交叉熵损失的组合。在2D视觉特征注入中,采用多尺度特征融合的方式,将2D视觉特征注入到3D解码器的不同层。LLM采用预训练的语言模型,并进行微调。解码器采用Transformer结构,并使用条件注意力机制。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SeqSplatNet在SeqAffordSplat基准测试中取得了显著的性能提升,相较于现有方法,在序列可供性推理任务上取得了state-of-the-art的结果。实验结果表明,条件几何重建预训练和2D视觉特征注入能够有效地提升模型的性能,使其能够更好地理解复杂场景和长时程交互。

🎯 应用场景

该研究成果可应用于机器人操作、虚拟现实、增强现实等领域。例如,机器人可以根据人类的指令,自动完成一系列操作任务,如组装家具、烹饪食物等。在虚拟现实和增强现实中,用户可以通过自然语言与虚拟环境进行交互,实现更真实、更沉浸式的体验。此外,该研究还可以用于智能家居、自动驾驶等领域,具有广阔的应用前景。

📄 摘要(原文)

3D affordance reasoning, the task of associating human instructions with the functional regions of 3D objects, is a critical capability for embodied agents. Current methods based on 3D Gaussian Splatting (3DGS) are fundamentally limited to single-object, single-step interactions, a paradigm that falls short of addressing the long-horizon, multi-object tasks required for complex real-world applications. To bridge this gap, we introduce the novel task of Sequential 3D Gaussian Affordance Reasoning and establish SeqAffordSplat, a large-scale benchmark featuring 1800+ scenes to support research on long-horizon affordance understanding in complex 3DGS environments. We then propose SeqSplatNet, an end-to-end framework that directly maps an instruction to a sequence of 3D affordance masks. SeqSplatNet employs a large language model that autoregressively generates text interleaved with special segmentation tokens, guiding a conditional decoder to produce the corresponding 3D mask. To handle complex scene geometry, we introduce a pre-training strategy, Conditional Geometric Reconstruction, where the model learns to reconstruct complete affordance region masks from known geometric observations, thereby building a robust geometric prior. Furthermore, to resolve semantic ambiguities, we design a feature injection mechanism that lifts rich semantic features from 2D Vision Foundation Models (VFM) and fuses them into the 3D decoder at multiple scales. Extensive experiments demonstrate that our method sets a new state-of-the-art on our challenging benchmark, effectively advancing affordance reasoning from single-step interactions to complex, sequential tasks at the scene level.