PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation

作者: Wenbin Tan, Jiawen Lin, Fangyong Wang, Yuan Xie, Yong Xie, Yachao Zhang, Yanyun Qu

分类: cs.CV

发布日期: 2026-03-18

💡 一句话要点

PC-CrossDiff：面向统一3D指代与分割任务的点云-簇双层跨模态差分注意力机制

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉指代 跨模态学习 差分注意力 点云处理 自然语言理解

📋 核心要点

现有3D视觉定位方法在复杂多对象场景中性能下降，无法有效解析隐式定位线索和抑制空间干扰。
PC-CrossDiff提出双层跨模态差分注意力机制，在点云和簇级别自适应地提取定位线索并抑制干扰。
实验表明，PC-CrossDiff在ScanRefer等数据集上取得了SOTA性能，尤其在隐式线索理解方面提升显著。

📝 摘要（中文）

本文提出PC-CrossDiff，一个统一的双任务框架，采用双层跨模态差分注意力架构，用于3D指代表达理解(3DREC)和分割(3DRES)。现有方法在复杂、多对象场景中性能显著下降，阻碍了实际部署。这些方法面临两个关键挑战：未能充分解析对区分视觉相似对象至关重要的隐式定位线索，以及未能有效抑制共现对象的动态空间干扰，导致定位精度下降。为了解决这些问题，PC-CrossDiff引入了：(i)点级差分注意力(PLDA)模块，应用文本和点云之间的双向差分注意力，通过可学习的权重自适应地提取隐式定位线索，以提高判别表示；(ii)簇级差分注意力(CLDA)模块，建立分层注意力机制，自适应地增强与定位相关的空间关系，同时通过定位感知的差分注意力块抑制模糊或不相关的空间关系。在ScanRefer、NR3D和SR3D基准测试中，该方法取得了最先进的性能。值得注意的是，在ScanRefer的隐式子集上，3DREC任务的Overall@0.50指标提高了+10.16%，突显了其解析隐式空间线索的强大能力。

🔬 方法详解

问题定义：论文旨在解决3D视觉指代中的表达式理解(3DREC)和分割(3DRES)问题，尤其是在复杂、多对象场景下，现有方法难以有效利用隐式定位线索，并受到共现对象的空间干扰，导致定位精度下降。现有方法的痛点在于缺乏对上下文信息的有效建模和利用，无法区分视觉上相似的对象。

核心思路：论文的核心思路是利用跨模态差分注意力机制，在点云和簇两个层级上，自适应地提取文本和点云之间的相关性，从而增强对目标对象的判别性表示，并抑制无关对象的干扰。通过差分注意力，模型可以学习到哪些特征对于定位目标对象是重要的，哪些是不重要的，从而提高定位精度。

技术框架：PC-CrossDiff框架包含两个主要模块：点级差分注意力(PLDA)和簇级差分注意力(CLDA)。首先，PLDA模块在点云和文本之间进行双向差分注意力，提取点级别的细粒度特征。然后，CLDA模块建立分层注意力机制，在簇级别上增强与定位相关的空间关系，并抑制无关的空间关系。整个框架是一个端到端的双任务学习框架，同时优化3DREC和3DRES两个任务。

关键创新：论文的关键创新在于提出了双层跨模态差分注意力机制，将差分注意力应用到点云和簇两个层级，从而更全面地捕捉目标对象和上下文之间的关系。与现有方法相比，该方法能够更有效地利用隐式定位线索，并抑制空间干扰，从而提高定位精度。

关键设计：PLDA模块使用双向Transformer结构，将文本和点云特征进行交互，并通过可学习的权重来控制不同特征的重要性。CLDA模块首先将点云聚类成簇，然后使用图神经网络来建模簇之间的关系，并通过差分注意力机制来增强与目标对象相关的簇，抑制无关的簇。损失函数包括3DREC的交叉熵损失和3DRES的Dice损失。

🖼️ 关键图片

📊 实验亮点

PC-CrossDiff在ScanRefer、NR3D和SR3D等基准测试中取得了最先进的性能。尤其是在ScanRefer的隐式子集上，3DREC任务的Overall@0.50指标提高了+10.16%，表明该方法在解析隐式空间线索方面具有显著优势。实验结果证明了双层跨模态差分注意力机制的有效性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如，在机器人导航中，机器人可以通过理解自然语言指令，定位并抓取特定物体。在自动驾驶中，车辆可以通过理解乘客的语音指令，调整车内环境或导航路线。该研究的未来发展方向包括探索更复杂的场景和更自然的语言表达。

📄 摘要（原文）

3D Visual Grounding (3DVG) aims to localize the referent of natural language referring expressions through two core tasks: Referring Expression Comprehension (3DREC) and Segmentation (3DRES). While existing methods achieve high accuracy in simple, single-object scenes, they suffer from severe performance degradation in complex, multi-object scenes that are common in real-world settings, hindering practical deployment. Existing methods face two key challenges in complex, multi-object scenes: inadequate parsing of implicit localization cues critical for disambiguating visually similar objects, and ineffective suppression of dynamic spatial interference from co-occurring objects, resulting in degraded grounding accuracy. To address these challenges, we propose PC-CrossDiff, a unified dual-task framework with a dual-level cross-modal differential attention architecture for 3DREC and 3DRES. Specifically, the framework introduces: (i) Point-Level Differential Attention (PLDA) modules that apply bidirectional differential attention between text and point clouds, adaptively extracting implicit localization cues via learnable weights to improve discriminative representation; (ii) Cluster-Level Differential Attention (CLDA) modules that establish a hierarchical attention mechanism to adaptively enhance localization-relevant spatial relationships while suppressing ambiguous or irrelevant spatial relations through a localization-aware differential attention block. Our method achieves state-of-the-art performance on the ScanRefer, NR3D, and SR3D benchmarks. Notably, on the Implicit subsets of ScanRefer, it improves the Overall@0.50 score by +10.16% for the 3DREC task, highlighting its strong ability to parse implicit spatial cues.

PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理