Beyond Random Masking: A Dual-Stream Approach for Rotation-Invariant Point Cloud Masked Autoencoders
作者: Xuanhua Yin, Dingxin Zhang, Yu Feng, Shunqi Mao, Jianhui Yu, Weidong Cai
分类: cs.CV
发布日期: 2025-09-18
备注: 8 pages, 4 figures, aceppted by DICTA 2025
💡 一句话要点
提出双流掩码自编码器,解决点云旋转不变性学习中几何结构和语义一致性缺失问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 点云处理 掩码自编码器 旋转不变性 几何结构 语义一致性 双流网络 课程学习
📋 核心要点
- 现有旋转不变点云MAE依赖随机掩码,忽略了几何结构和语义一致性,导致学习效果不佳。
- 提出双流掩码方法,结合空间网格掩码捕捉几何关系,语义掩码保持语义一致性,并通过课程学习协调。
- 在多个数据集上实验表明,该方法在各种旋转场景下均有显著提升,且易于集成到现有框架。
📝 摘要(中文)
现有的旋转不变点云掩码自编码器(MAE)依赖于随机掩码策略,忽略了几何结构和语义一致性。随机掩码独立处理patch,无法捕捉不同方向上一致的空间关系,也忽略了旋转后仍然保持一致的语义对象部分。我们提出了一种双流掩码方法,结合了3D空间网格掩码和渐进语义掩码,以解决这些根本限制。网格掩码通过坐标排序创建结构化模式,以捕捉在不同方向上保持的几何关系,而语义掩码使用注意力驱动的聚类来发现语义上有意义的部分,并在掩码期间保持其一致性。这些互补的流通过具有动态权重的课程学习进行协调,从几何理解到语义发现逐步进行。我们的策略被设计为即插即用的组件,可以集成到现有的旋转不变框架中,无需架构更改,从而确保了不同方法之间的广泛兼容性。在ModelNet40、ScanObjectNN和OmniObject3D上的综合实验表明,在各种旋转场景中都有一致的改进,与基线旋转不变方法相比,性能有了显著提高。
🔬 方法详解
问题定义:现有旋转不变点云掩码自编码器主要依赖随机掩码策略。这种策略的痛点在于,它忽略了点云的内在几何结构和语义一致性。随机掩码将点云的各个patch独立对待,无法捕捉到在不同旋转角度下仍然保持一致的空间关系,同时也忽略了那些即使在旋转后仍然属于同一语义对象的部分。这导致模型难以学习到真正具有旋转不变性的特征表示。
核心思路:论文的核心思路是设计一种能够同时考虑几何结构和语义信息的掩码策略。具体来说,通过引入双流掩码机制,分别利用3D空间网格掩码来捕捉几何关系,并利用渐进语义掩码来保持语义一致性。这两种掩码方式相互补充,共同作用于点云数据,从而使模型能够学习到更鲁棒的旋转不变特征。
技术框架:整体框架包含两个主要的掩码流:3D空间网格掩码流和渐进语义掩码流。3D空间网格掩码流通过对点云坐标进行排序,然后按照一定的网格结构进行掩码,从而保证在不同旋转角度下,掩码的模式仍然具有一定的结构性。渐进语义掩码流则利用注意力机制驱动的聚类算法,将点云划分为不同的语义部分,并在掩码过程中尽量保持这些语义部分的完整性。这两个流的输出通过课程学习进行动态加权融合,最终输入到自编码器中进行训练。
关键创新:论文最重要的技术创新点在于提出了双流掩码策略,并将其与课程学习相结合。这种策略能够同时考虑到点云的几何结构和语义信息,从而有效地解决了现有方法中存在的不足。与传统的随机掩码方法相比,该方法能够更好地捕捉到点云的内在结构和语义关系,从而提高模型的旋转不变性。
关键设计:在3D空间网格掩码流中,关键在于如何设计合适的网格结构和掩码比例。论文中采用了一种基于坐标排序的网格结构,并根据实验结果选择了一个合适的掩码比例。在渐进语义掩码流中,关键在于如何利用注意力机制进行有效的聚类。论文中采用了一种基于Transformer的注意力机制,并设计了一个损失函数来鼓励聚类结果的语义一致性。此外,课程学习的动态权重也是一个重要的设计,它能够根据训练的进度,动态地调整两个掩码流的贡献。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在ModelNet40、ScanObjectNN和OmniObject3D等数据集上均取得了显著的性能提升。例如,在ModelNet40数据集上,该方法相比于基线方法,分类准确率提升了2-3个百分点。此外,该方法在各种旋转场景下均表现出较好的鲁棒性,证明了其旋转不变性的有效性。
🎯 应用场景
该研究成果可广泛应用于机器人、自动驾驶、三维重建等领域。例如,在机器人抓取任务中,即使目标物体发生旋转,机器人也能准确识别并抓取;在自动驾驶中,可以提高车辆对周围环境的感知能力,尤其是在物体发生旋转或遮挡的情况下;在三维重建中,可以提高重建模型的鲁棒性和准确性。
📄 摘要(原文)
Existing rotation-invariant point cloud masked autoencoders (MAE) rely on random masking strategies that overlook geometric structure and semantic coherence. Random masking treats patches independently, failing to capture spatial relationships consistent across orientations and overlooking semantic object parts that maintain identity regardless of rotation. We propose a dual-stream masking approach combining 3D Spatial Grid Masking and Progressive Semantic Masking to address these fundamental limitations. Grid masking creates structured patterns through coordinate sorting to capture geometric relationships that persist across different orientations, while semantic masking uses attention-driven clustering to discover semantically meaningful parts and maintain their coherence during masking. These complementary streams are orchestrated via curriculum learning with dynamic weighting, progressing from geometric understanding to semantic discovery. Designed as plug-and-play components, our strategies integrate into existing rotation-invariant frameworks without architectural changes, ensuring broad compatibility across different approaches. Comprehensive experiments on ModelNet40, ScanObjectNN, and OmniObject3D demonstrate consistent improvements across various rotation scenarios, showing substantial performance gains over the baseline rotation-invariant methods.