DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction
作者: Chaofan Gan, Yuanpeng Tu, Yuxi Li, Weiyao Lin
分类: cs.CV
发布日期: 2024-07-25 (更新: 2024-09-27)
备注: accepted by ACM MM 2024
💡 一句话要点
提出DAC框架,通过分而治之的对齐和校正方法解决带噪标签的2D-3D跨模态检索问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 2D-3D检索 跨模态学习 噪声标签 分而治之 自适应对齐 自校正 多模态学习
📋 核心要点
- 现有2D-3D跨模态检索方法在处理带噪标签数据时,依赖手工阈值划分,对阈值敏感且未能充分利用子集信息。
- DAC框架通过多模态动态划分(MDD)和自适应对齐与校正(AAC)策略,实现更精确的样本划分和更有效的噪声抑制。
- 在ModelNet40和Objaverse-N200数据集上的实验表明,DAC显著优于现有方法,分别提升了5.9%和5.8%。
📝 摘要(中文)
随着2D和3D数据的激增,跨模态检索日益受到关注。然而,由于2D/3D内容存在歧义,非专业人员的手动标注不可避免地会引入错误标注。虽然之前的工作通过设计具有手工阈值的简单划分策略来解决这个问题,但它们的性能通常对阈值非常敏感,并且未能充分利用每个划分后的子集中的有价值的监督信号。为了解决这个问题,我们提出了一个分而治之的2D-3D跨模态对齐和校正框架(DAC),它包括多模态动态划分(MDD)和自适应对齐和校正(AAC)。具体来说,MDD通过基于多模态损失分布中的补偿信息,为每个样本建立自适应可信度模型,从而执行精确的样本划分。然后在AAC中,利用不同子集中的样本采用不同的对齐策略,以充分增强语义紧凑性,同时减轻对噪声标签的过拟合,其中引入了一种自校正策略来提高表示的质量。此外,为了评估在真实场景中的有效性,我们引入了一个具有挑战性的噪声基准,即Objaverse-N200,它包含20万级别的样本,并标注了1156个真实的噪声标签。在传统基准和新提出的基准上的大量实验表明了我们DAC的通用性和优越性,其中DAC优于最先进的模型,在ModelNet40上获得了+5.9%的提升,在Objaverse-N200上获得了+5.8%的提升。
🔬 方法详解
问题定义:论文旨在解决2D-3D跨模态检索中,由于人工标注引入的噪声标签问题。现有方法主要依赖手工设定的阈值进行样本划分,这种方式对阈值非常敏感,且无法充分利用划分后各个子集内部的监督信息,导致模型性能下降。
核心思路:论文的核心思路是“分而治之”。首先,通过多模态动态划分(MDD)将样本划分为不同的子集,每个子集具有不同的噪声水平。然后,针对不同的子集,采用自适应的对齐和校正(AAC)策略,以增强语义紧凑性并减轻对噪声标签的过拟合。
技术框架:DAC框架主要包含两个模块:多模态动态划分(MDD)和自适应对齐与校正(AAC)。MDD模块利用多模态损失分布中的补偿信息,为每个样本建立自适应可信度模型,从而实现更精确的样本划分。AAC模块则针对不同的子集,采用不同的对齐策略,并引入自校正策略来提高表示的质量。整体流程是先通过MDD划分数据集,然后使用AAC对划分后的子集进行训练。
关键创新:论文的关键创新在于提出了多模态动态划分(MDD)和自适应对齐与校正(AAC)策略。MDD能够自适应地根据样本的可信度进行划分,避免了手工阈值带来的问题。AAC则能够根据不同子集的特点,采用不同的对齐策略,并利用自校正策略来提高表示的质量。与现有方法相比,DAC能够更有效地处理带噪标签数据,并提高检索性能。
关键设计:MDD模块中,关键在于如何建模样本的可信度。论文利用多模态损失分布中的补偿信息,为每个样本计算一个可信度得分。AAC模块中,关键在于如何设计不同的对齐策略和自校正策略。论文针对不同的子集,设计了不同的对齐损失函数,并引入了一种基于一致性的自校正策略,以提高表示的质量。具体的损失函数和网络结构细节在论文中有详细描述,但具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DAC框架在ModelNet40数据集上取得了5.9%的性能提升,在作者提出的Objaverse-N200数据集上取得了5.8%的性能提升,显著优于现有的最先进方法。这证明了DAC框架在处理带噪标签的2D-3D跨模态检索问题上的有效性和优越性。
🎯 应用场景
该研究成果可应用于各种需要进行2D-3D跨模态检索的场景,例如:电商平台中的商品搜索、机器人导航中的场景理解、以及增强现实应用中的物体识别等。通过提高带噪标签数据的检索精度,可以提升用户体验和系统性能,具有重要的实际应用价值和潜在的商业前景。
📄 摘要(原文)
With the recent burst of 2D and 3D data, cross-modal retrieval has attracted increasing attention recently. However, manual labeling by non-experts will inevitably introduce corrupted annotations given ambiguous 2D/3D content. Though previous works have addressed this issue by designing a naive division strategy with hand-crafted thresholds, their performance generally exhibits great sensitivity to the threshold value. Besides, they fail to fully utilize the valuable supervisory signals within each divided subset. To tackle this problem, we propose a Divide-and-conquer 2D-3D cross-modal Alignment and Correction framework (DAC), which comprises Multimodal Dynamic Division (MDD) and Adaptive Alignment and Correction (AAC). Specifically, the former performs accurate sample division by adaptive credibility modeling for each sample based on the compensation information within multimodal loss distribution. Then in AAC, samples in distinct subsets are exploited with different alignment strategies to fully enhance the semantic compactness and meanwhile alleviate over-fitting to noisy labels, where a self-correction strategy is introduced to improve the quality of representation. Moreover. To evaluate the effectiveness in real-world scenarios, we introduce a challenging noisy benchmark, namely Objaverse-N200, which comprises 200k-level samples annotated with 1156 realistic noisy labels. Extensive experiments on both traditional and the newly proposed benchmarks demonstrate the generality and superiority of our DAC, where DAC outperforms state-of-the-art models by a large margin. (i.e., with +5.9% gain on ModelNet40 and +5.8% on Objaverse-N200).