PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation

📄 arXiv: 2603.17753v1 📥 PDF

作者: Wenbin Tan, Jiawen Lin, Fangyong Wang, Yuan Xie, Yong Xie, Yachao Zhang, Yanyun Qu

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

PC-CrossDiff:面向统一3D指代与分割任务的点云-簇双层跨模态差分注意力机制

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉指代 跨模态学习 差分注意力 点云处理 自然语言理解

📋 核心要点

  1. 现有3D视觉定位方法在复杂多对象场景中性能下降,无法有效解析隐式定位线索和抑制空间干扰。
  2. PC-CrossDiff提出双层跨模态差分注意力机制,在点云和簇级别自适应地提取定位线索并抑制干扰。
  3. 实验表明,PC-CrossDiff在ScanRefer等数据集上取得了SOTA性能,尤其在隐式线索理解方面提升显著。

📝 摘要(中文)

本文提出PC-CrossDiff,一个统一的双任务框架,采用双层跨模态差分注意力架构,用于3D指代表达理解(3DREC)和分割(3DRES)。现有方法在复杂、多对象场景中性能显著下降,阻碍了实际部署。这些方法面临两个关键挑战:未能充分解析对区分视觉相似对象至关重要的隐式定位线索,以及未能有效抑制共现对象的动态空间干扰,导致定位精度下降。为了解决这些问题,PC-CrossDiff引入了:(i)点级差分注意力(PLDA)模块,应用文本和点云之间的双向差分注意力,通过可学习的权重自适应地提取隐式定位线索,以提高判别表示;(ii)簇级差分注意力(CLDA)模块,建立分层注意力机制,自适应地增强与定位相关的空间关系,同时通过定位感知的差分注意力块抑制模糊或不相关的空间关系。在ScanRefer、NR3D和SR3D基准测试中,该方法取得了最先进的性能。值得注意的是,在ScanRefer的隐式子集上,3DREC任务的Overall@0.50指标提高了+10.16%,突显了其解析隐式空间线索的强大能力。

🔬 方法详解

问题定义:论文旨在解决3D视觉指代中的表达式理解(3DREC)和分割(3DRES)问题,尤其是在复杂、多对象场景下,现有方法难以有效利用隐式定位线索,并受到共现对象的空间干扰,导致定位精度下降。现有方法的痛点在于缺乏对上下文信息的有效建模和利用,无法区分视觉上相似的对象。

核心思路:论文的核心思路是利用跨模态差分注意力机制,在点云和簇两个层级上,自适应地提取文本和点云之间的相关性,从而增强对目标对象的判别性表示,并抑制无关对象的干扰。通过差分注意力,模型可以学习到哪些特征对于定位目标对象是重要的,哪些是不重要的,从而提高定位精度。

技术框架:PC-CrossDiff框架包含两个主要模块:点级差分注意力(PLDA)和簇级差分注意力(CLDA)。首先,PLDA模块在点云和文本之间进行双向差分注意力,提取点级别的细粒度特征。然后,CLDA模块建立分层注意力机制,在簇级别上增强与定位相关的空间关系,并抑制无关的空间关系。整个框架是一个端到端的双任务学习框架,同时优化3DREC和3DRES两个任务。

关键创新:论文的关键创新在于提出了双层跨模态差分注意力机制,将差分注意力应用到点云和簇两个层级,从而更全面地捕捉目标对象和上下文之间的关系。与现有方法相比,该方法能够更有效地利用隐式定位线索,并抑制空间干扰,从而提高定位精度。

关键设计:PLDA模块使用双向Transformer结构,将文本和点云特征进行交互,并通过可学习的权重来控制不同特征的重要性。CLDA模块首先将点云聚类成簇,然后使用图神经网络来建模簇之间的关系,并通过差分注意力机制来增强与目标对象相关的簇,抑制无关的簇。损失函数包括3DREC的交叉熵损失和3DRES的Dice损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PC-CrossDiff在ScanRefer、NR3D和SR3D等基准测试中取得了最先进的性能。尤其是在ScanRefer的隐式子集上,3DREC任务的Overall@0.50指标提高了+10.16%,表明该方法在解析隐式空间线索方面具有显著优势。实验结果证明了双层跨模态差分注意力机制的有效性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,在机器人导航中,机器人可以通过理解自然语言指令,定位并抓取特定物体。在自动驾驶中,车辆可以通过理解乘客的语音指令,调整车内环境或导航路线。该研究的未来发展方向包括探索更复杂的场景和更自然的语言表达。

📄 摘要(原文)

3D Visual Grounding (3DVG) aims to localize the referent of natural language referring expressions through two core tasks: Referring Expression Comprehension (3DREC) and Segmentation (3DRES). While existing methods achieve high accuracy in simple, single-object scenes, they suffer from severe performance degradation in complex, multi-object scenes that are common in real-world settings, hindering practical deployment. Existing methods face two key challenges in complex, multi-object scenes: inadequate parsing of implicit localization cues critical for disambiguating visually similar objects, and ineffective suppression of dynamic spatial interference from co-occurring objects, resulting in degraded grounding accuracy. To address these challenges, we propose PC-CrossDiff, a unified dual-task framework with a dual-level cross-modal differential attention architecture for 3DREC and 3DRES. Specifically, the framework introduces: (i) Point-Level Differential Attention (PLDA) modules that apply bidirectional differential attention between text and point clouds, adaptively extracting implicit localization cues via learnable weights to improve discriminative representation; (ii) Cluster-Level Differential Attention (CLDA) modules that establish a hierarchical attention mechanism to adaptively enhance localization-relevant spatial relationships while suppressing ambiguous or irrelevant spatial relations through a localization-aware differential attention block. Our method achieves state-of-the-art performance on the ScanRefer, NR3D, and SR3D benchmarks. Notably, on the Implicit subsets of ScanRefer, it improves the Overall@0.50 score by +10.16% for the 3DREC task, highlighting its strong ability to parse implicit spatial cues.