Divide and Conquer: Object Co-occurrence Helps Mitigate Simplicity Bias in OOD Detection
作者: Boyang Dai, Chaoqi Chen, Yizhou Yu
分类: cs.CV, cs.AI
发布日期: 2026-05-08
备注: This paper has been accepted by CVPR2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出OCO框架,利用物体共现关系缓解OOD检测中的简单偏见问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: OOD检测 物体共现 简单偏见 解耦表示 上下文信息
📋 核心要点
- 现有OOD检测方法忽略图像中丰富的上下文信息,导致模型难以学习区分性特征,尤其是在近OOD数据检测中。
- OCO框架通过学习捕获图像中的物体共现模式,利用物体之间的语义关系来辅助OOD检测,从而克服简单偏见。
- 实验结果表明,OCO在具有挑战性的OOD检测任务上表现出色,能有效应对语义和协变量偏移。
📝 摘要(中文)
本文提出了一种基于物体共现关系的OOD检测框架(OCO),旨在解决深度学习模型中存在的简单偏见问题,尤其是在检测近OOD数据时。现有方法主要关注学习纠缠的表征来区分ID和OOD数据,忽略了图像中丰富的上下文信息。OCO框架通过预测解耦表征来理解图像中的物体共现关系,然后基于ID训练数据中观察到的物体共现模式自适应地将模式划分为三种情景,并以分而治之的方式执行OOD检测。OCO通过考虑图像中存在的语义上下文关系来区分近OOD数据,避免了模型仅关注简单、易于学习区域的倾向。实验结果表明,OCO在具有挑战性的和全谱OOD设置中表现出竞争力的结果,并证实了其解决语义和协变量偏移的能力。
🔬 方法详解
问题定义:论文旨在解决OOD检测任务中,由于模型存在简单偏见(simplicity bias)而导致的近OOD数据难以区分的问题。现有方法主要依赖学习纠缠的特征表示来区分ID和OOD数据,忽略了图像中包含的丰富的上下文信息,这使得模型容易关注图像中简单、易于学习的区域,从而无法有效识别与ID数据在语义上接近的OOD数据。
核心思路:论文的核心思路是模仿人类视觉系统利用物体共现关系进行场景理解的能力,将物体共现关系(Object Co-occurrence, OCO)引入到OOD检测中。通过学习ID数据中的物体共现模式,模型可以更好地理解图像的语义上下文信息,从而更准确地区分ID和近OOD数据。
技术框架:OCO框架包含以下几个主要模块:1) 解耦表征学习:使用某种解耦表示学习方法(论文中未具体说明使用何种方法)将图像分解为独立的物体表示;2) 物体共现模式分析:分析ID训练数据中不同物体之间的共现关系,建立物体共现模式的统计模型;3) 自适应情景划分:对于测试样本,根据其包含的物体共现模式,自适应地将其划分到不同的情景中,例如:常见共现、罕见共现、未见共现等;4) 分而治之的OOD检测:针对不同的情景,采用不同的OOD检测策略,例如:对于未见共现的情景,可以认为其更可能是OOD数据。
关键创新:论文的关键创新在于将物体共现关系引入到OOD检测中,提出了一种新的OOD检测范式。与现有方法主要关注学习纠缠的特征表示不同,OCO框架更加注重利用图像中的语义上下文信息。通过分析物体共现模式,OCO可以更好地理解图像的语义信息,从而更准确地区分ID和近OOD数据,缓解简单偏见带来的影响。
关键设计:论文中没有详细描述具体的网络结构和损失函数设计,只是提出了一个通用的框架。自适应情景划分的具体实现方法(例如,如何确定物体共现模式的统计模型,如何设定划分阈值)也未在论文中详细说明。这些细节可能需要在阅读代码后才能理解。
🖼️ 关键图片
📊 实验亮点
论文在具有挑战性的OOD检测任务上进行了实验,并取得了有竞争力的结果。具体性能数据和对比基线的详细信息需要在阅读论文原文后才能获得。实验结果验证了OCO框架在应对语义和协变量偏移方面的有效性,表明其能够有效缓解OOD检测中的简单偏见问题。
🎯 应用场景
该研究成果可应用于自动驾驶、医疗诊断、金融风控等对模型可靠性要求较高的领域。通过提高OOD检测的准确性,可以有效防止模型在未知场景下做出错误的预测,从而保障系统的安全性和可靠性。例如,在自动驾驶中,可以识别未知的交通状况,避免发生交通事故;在医疗诊断中,可以检测罕见疾病,辅助医生进行诊断。
📄 摘要(原文)
Out-of-distribution (OOD) detection is crucial for ensuring the reliability of deep learning models. Existing methods mostly focus on regular entangled representations to discriminate in-distribution (ID) and OOD data, neglecting the rich contextual information within images. This issue is particularly challenging for detecting near-OOD, as models with simplicity bias struggle to learn discriminative features in disentangled representations. The human visual system can use the co-occurrence of objects in the natural environment to facilitate scene understanding. Inspired by this, we propose an Object-Centric OOD detection framework that learns to capture Object CO-occurrence (OCO) patterns within images. The proposed method introduces a new OOD detection paradigm that understands object co-occurrence within an image by predicting disentangled representations for the test sample, then adaptively divides patterns into three scenarios based on object co-occurrence patterns observed in ID training data, and finally performs OOD detection in a divide-and-conquer manner. By doing so, OCO can distinguish near-OOD by considering the semantic contextual relationships present in their images, avoiding the tendency to focus solely on simple, easily learnable regions. We evaluate OCO through experiments across challenging and full-spectrum OOD settings, demonstrating competitive results and confirming its ability to address both semantic and covariate shifts. Code is released at https://github.com/Michael-McQueen/OCO.