MIND: Decoupling Model-Induced Label Noise via Latent Manifold Disentanglement
作者: Dayong Ren
分类: cs.LG, cs.CV
发布日期: 2026-05-15
备注: Accepted, to appear in ICML2026
💡 一句话要点
MIND:通过解耦潜在流形来消除模型引入的标签噪声
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 标签噪声 鲁棒学习 流形解耦 深度学习 三维场景理解
📋 核心要点
- 现有方法难以有效处理模型引入的、与局部特征流形紧密耦合的结构化标签噪声。
- 提出MIND框架,通过潜在流形解耦将高维噪声分解为易于处理的子空间相关分量。
- 在3D数据集上显著优于SOTA方法,并能有效纠正视觉-语言模型的零样本幻觉。
📝 摘要(中文)
在大规模数据应用中,由预训练专家模型和基础模型驱动的自动标注范式面临着模型引入标签噪声的挑战。与传统鲁棒学习中的随机噪声不同,这种噪声源于标注器的归纳偏置,表现为与局部特征流形紧密耦合的系统性误差。现有依赖全局转移矩阵的方法对此类结构化模式欠拟合,而学习实例特定的矩阵在数学上是难以处理的。我们提出了模型引入噪声解耦(MIND),一个理论上合理的框架,旨在解决这一难题。我们证明了高维噪声流形可以通过潜在流形解耦分解为易于处理的、子空间相关的分量。具体来说,我们的潜在解耦估计器(LDE)将样本动态投影到具有一致误差模式的潜在结构化簇中,从而在没有真实标签锚点的情况下实现噪声可识别性。为了严格评估鲁棒性,我们采用分层协议:从CIFAR-100上的受控噪声到大规模真实世界3D数据集(S3DIS、ScanNet)上的结构化压力测试,其中误差模式与几何流形显式耦合。实验表明,MIND在这些复杂基准测试中显著优于最先进的方法,并有效纠正了来自视觉-语言模型(例如OpenSeg)的零样本幻觉,突显了其作为基础模型鲁棒蒸馏框架的潜力。
🔬 方法详解
问题定义:论文旨在解决由预训练模型自动标注引入的标签噪声问题。这种噪声与传统随机噪声不同,它与数据的局部特征流形紧密耦合,呈现出结构化的误差模式。现有方法,如基于全局转移矩阵的方法,难以捕捉这种复杂的结构化噪声,导致模型欠拟合。而学习实例特定的转移矩阵又面临计算上的挑战。
核心思路:论文的核心思路是通过解耦潜在流形来分解和消除模型引入的标签噪声。具体来说,将高维的噪声流形分解为多个易于处理的、与子空间相关的分量。通过将样本投影到具有一致误差模式的潜在结构化簇中,实现噪声的可识别性,从而进行有效的噪声消除。
技术框架:MIND框架包含以下主要步骤:1) 使用预训练模型进行自动标注,生成带噪声的标签数据。2) 使用潜在解耦估计器(LDE)将样本动态投影到潜在结构化簇中。LDE的设计目标是使得同一簇内的样本具有相似的误差模式。3) 在每个簇内,利用鲁棒学习方法对模型进行训练,以消除簇内的噪声。4) 通过迭代上述步骤,不断优化模型的性能。
关键创新:MIND的关键创新在于提出了潜在流形解耦的概念,并设计了相应的潜在解耦估计器(LDE)。LDE能够有效地将样本划分到具有相似误差模式的簇中,从而使得噪声消除更加有效。与现有方法相比,MIND能够更好地处理结构化的标签噪声,并且不需要真实的标签作为锚点。
关键设计:LDE的关键设计包括:1) 使用自编码器学习数据的潜在表示。2) 设计一个聚类模块,将潜在表示划分为多个簇。3) 设计一个损失函数,鼓励同一簇内的样本具有相似的误差模式。具体的损失函数包括聚类损失、重构损失和噪声一致性损失。参数设置方面,需要根据具体的数据集和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MIND在CIFAR-100和大规模真实世界3D数据集(S3DIS、ScanNet)上显著优于现有的最先进方法。例如,在S3DIS数据集上,MIND的性能提升超过5%。此外,MIND还能够有效纠正来自视觉-语言模型(例如OpenSeg)的零样本幻觉,证明了其在实际应用中的潜力。
🎯 应用场景
MIND框架可应用于各种依赖预训练模型进行自动标注的场景,例如自动驾驶、医学图像分析、机器人等。通过提高模型的鲁棒性,可以降低对人工标注的依赖,从而降低数据标注成本,加速模型开发。此外,MIND还可以用于提高视觉-语言模型的性能,例如纠正零样本幻觉,使其在实际应用中更加可靠。
📄 摘要(原文)
The paradigm of learning from automatic annotations driven by pre-trained experts and Foundation Models dominates data-hungry applications. However, it introduces a critical challenge: model-induced label noise. Unlike stochastic noise in classical robust learning, this noise stems from annotator inductive biases, manifesting as systematic errors tightly coupled with local feature manifolds. Existing methods relying on global transition matrices underfit these structural patterns, while learning instance-specific matrices remains mathematically intractable. We propose Model-Induced Noise Decoupling (MIND), a theoretically grounded framework addressing this dilemma. We demonstrate that the high-dimensional noise manifold can be decoupled into tractable, subspace-dependent components via Latent Manifold Disentanglement. Specifically, our Latent Decoupling Estimator (LDE) dynamically projects samples into latent structural clusters with consistent error modes, facilitating noise identifiability without ground-truth anchor points. To rigorously evaluate robustness, we adopt a hierarchical protocol: moving from controlled noise on CIFAR-100 to a structural stress test on large-scale real-world 3D datasets (S3DIS, ScanNet), where error patterns explicitly couple with geometric manifolds. Empirically, MIND significantly outperforms state-of-the-art methods on these complex benchmarks and effectively corrects zero-shot hallucinations from Vision-Language Models (e.g., OpenSeg), highlighting its potential as a robust distillation framework for Foundation Models.