Point-PNG: Conditional Pseudo-Negatives Generation for Point Cloud Pre-Training

📄 arXiv: 2409.15832v3 📥 PDF

作者: Sutharsan Mahendren, Saimunur Rahman, Piotr Koniusz, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, Peyman Moghadam

分类: cs.CV, cs.RO

发布日期: 2024-09-24 (更新: 2025-12-05)

备注: Accepted for publication in IEEE ACCESS


💡 一句话要点

Point-PNG:通过条件伪负样本生成提升点云预训练的判别性和变换敏感性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 点云预训练 自监督学习 伪负样本生成 变换敏感性 不变性坍塌

📋 核心要点

  1. 现有自监督点云学习方法侧重不变性,忽略了变换信息,而显式建模变换关系的方法易发生不变性坍塌。
  2. Point-PNG通过生成条件伪负样本,显式惩罚不变性坍塌,使网络学习更丰富的变换信息,同时保持判别性。
  3. 实验表明,Point-PNG在形状分类和相对姿态估计任务上表现出色,尤其在姿态估计上优于监督基线。

📝 摘要(中文)

本文提出了一种新颖的自监督学习框架Point-PNG,它在潜在空间中生成条件伪负样本,以学习具有判别性和变换敏感性的点云表示。传统的自监督学习方法侧重于实现不变性,从而忽略了变换特定的信息。最近的方法通过显式建模原始输入和变换输入之间的关系来结合变换敏感性。然而,它们通常会遭受不变性坍塌现象,即预测器退化为恒等映射,导致潜在表示在不同变换之间的变化有限。为了解决这个问题,我们提出了Point-PNG,它通过伪负样本生成显式地惩罚不变性坍塌,使网络能够捕获更丰富的变换线索,同时保持判别性表示。为此,我们引入了一个参数化网络,即条件伪负样本嵌入(COPE),它学习由潜在空间内的变换引起的局部位移。当将COPE与MAE联合训练时,会出现一个关键挑战,因为它倾向于收敛到平凡的恒等映射。为了克服这个问题,我们设计了一个基于条件变换的伪负样本的损失函数,该损失函数惩罚这种平凡的不变解,并强制进行有意义的表示学习。我们在形状分类和相对姿态估计任务上验证了Point-PNG,在具有挑战性的评估协议下,在ModelNet40和ScanObjectNN上表现出具有竞争力的性能,并且在相对姿态估计方面实现了优于监督基线的准确性。

🔬 方法详解

问题定义:现有的点云自监督学习方法,要么侧重于学习变换不变的特征,忽略了变换本身所蕴含的信息;要么虽然尝试建模变换关系,但容易陷入“不变性坍塌”问题,即网络学习到的表示对不同的变换不敏感,无法有效区分不同的变换。

核心思路:Point-PNG的核心思路是通过生成“伪负样本”来显式地惩罚“不变性坍塌”。具体来说,对于一个经过特定变换的点云,除了原始点云作为正样本外,还生成一些与该变换相关的“伪负样本”,迫使网络学习区分这些样本,从而避免网络退化成简单的恒等映射,并学习到更具区分性的变换敏感特征。

技术框架:Point-PNG的整体框架包括一个Masked Autoencoder (MAE) 和一个条件伪负样本嵌入网络 (COPE)。MAE负责学习点云的初始表示,COPE则负责在潜在空间中生成伪负样本。训练过程中,首先使用MAE对点云进行编码,然后使用COPE根据变换信息生成伪负样本,最后通过一个基于伪负样本的损失函数来更新网络参数。

关键创新:Point-PNG的关键创新在于条件伪负样本的生成和相应的损失函数设计。COPE网络能够根据不同的变换,在潜在空间中生成具有针对性的伪负样本,从而更有效地惩罚不变性坍塌。此外,基于伪负样本的损失函数能够引导网络学习到既具有判别性,又对变换敏感的特征表示。

关键设计:COPE网络是一个参数化的网络,其输入是点云的潜在表示和变换信息,输出是在潜在空间中的位移向量。损失函数的设计至关重要,它需要能够有效地惩罚不变性坍塌,同时保证学习到的表示具有判别性。具体来说,损失函数通常包含一个对比损失项,用于区分正样本和伪负样本,以及一个正则化项,用于约束COPE网络的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Point-PNG在ModelNet40和ScanObjectNN数据集上进行了评估,在形状分类任务上取得了具有竞争力的性能。更重要的是,在相对姿态估计任务上,Point-PNG的准确率显著优于监督学习的基线方法,表明其能够有效地学习到对变换敏感的点云表示。

🎯 应用场景

Point-PNG在机器人导航、自动驾驶、三维场景理解等领域具有广泛的应用前景。通过学习对变换敏感的点云表示,可以提高机器人对环境变化的适应能力,提升自动驾驶系统的感知精度,并为三维场景的重建和分析提供更可靠的基础。

📄 摘要(原文)

We propose Point-PNG, a novel self-supervised learning framework that generates conditional pseudo-negatives in the latent space to learn point cloud representations that are both discriminative and transformation-sensitive. Conventional self-supervised learning methods focus on achieving invariance, discarding transformation-specific information. Recent approaches incorporate transformation sensitivity by explicitly modeling relationships between original and transformed inputs. However, they often suffer from an invariant-collapse phenomenon, where the predictor degenerates into identity mappings, resulting in latent representations with limited variation across transformations. To address this, we propose Point-PNG that explicitly penalizes invariant collapse through pseudo-negatives generation, enabling the network to capture richer transformation cues while preserving discriminative representations. To this end, we introduce a parametric network, COnditional Pseudo-Negatives Embedding (COPE), which learns localized displacements induced by transformations within the latent space. A key challenge arises when jointly training COPE with the MAE, as it tends to converge to trivial identity mappings. To overcome this, we design a loss function based on pseudo-negatives conditioned on the transformation, which penalizes such trivial invariant solutions and enforces meaningful representation learning. We validate Point-PNG on shape classification and relative pose estimation tasks, showing competitive performance on ModelNet40 and ScanObjectNN under challenging evaluation protocols, and achieving superior accuracy in relative pose estimation compared to supervised baselines.