BUSSARD: Normalizing Flows for Bijective Universal Scene-Specific Anomalous Relationship Detection
作者: Melissa Schween, Mathis Kruse, Bodo Rosenhahn
分类: cs.CV
发布日期: 2026-03-17
备注: CVPR 2026 Main Track
🔗 代码/项目: GITHUB
💡 一句话要点
提出BUSSARD,用标准化流进行双射通用场景特定异常关系检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 场景图 异常检测 标准化流 多模态学习 关系预测
📋 核心要点
- 现有场景图异常关系检测方法缺乏鲁棒性,对同义词等语义变体敏感,限制了其通用性。
- BUSSARD利用标准化流学习对象-关系-对象三元组到高斯分布的双射变换,通过似然估计实现异常检测。
- 实验表明,BUSSARD在SARD数据集上AUROC提升10%,速度提升5倍,且对同义词具有更强的鲁棒性。
📝 摘要(中文)
本文提出了一种基于标准化流的模型BUSSARD,用于检测图像生成的场景图中的异常关系,即双射通用场景特定异常关系检测。该方法采用多模态方法,利用语言模型嵌入场景图中的对象和关系token,从而利用来自真实世界的语义知识。标准化流模型用于学习双射变换,将场景图中的对象-关系-对象三元组映射到简单的基础分布(通常是高斯分布),从而通过似然估计进行异常检测。我们在包含办公室和餐厅场景的SARD数据集上评估了我们的方法。我们的方法比当前最先进的模型实现了大约10%的AUROC结果提升,同时速度提高了五倍。通过消融研究,我们证明了卓越的鲁棒性和通用性,特别是在使用同义词方面,我们的模型保持了稳定的性能,而基线模型显示了17.5%的偏差。这项工作证明了基于学习的方法在场景图关系异常检测方面的强大潜力。我们的代码可在https://github.com/mschween/BUSSARD 获取。
🔬 方法详解
问题定义:论文旨在解决场景图中异常关系检测的问题。现有方法,尤其是基于嵌入的方法,在处理语义相似但表达不同的关系(如同义词)时,鲁棒性较差,导致性能下降。此外,现有方法可能计算复杂度较高,影响实际应用效率。
核心思路:论文的核心思路是利用标准化流(Normalizing Flows)学习一个双射变换,将场景图中的对象-关系-对象三元组映射到一个简单的基础分布(如高斯分布)。正常关系的三元组在基础分布上具有较高的似然值,而异常关系的三元组则具有较低的似然值。通过似然估计,可以有效地检测出异常关系。这种方法的关键在于标准化流能够学习复杂的分布,并且具有可逆性,从而可以进行精确的似然估计。
技术框架:BUSSARD的整体框架包括以下几个主要模块:1) 场景图构建:从图像中提取对象和关系,构建场景图。2) 多模态嵌入:使用语言模型(如BERT)将对象和关系token嵌入到高维语义空间中。3) 标准化流模型:构建一个由多个可逆变换层组成的标准化流模型,用于学习对象-关系-对象三元组到基础分布的双射变换。4) 异常检测:计算三元组在基础分布上的似然值,并根据设定的阈值判断是否为异常关系。
关键创新:BUSSARD的关键创新在于将标准化流应用于场景图的异常关系检测。与传统的基于嵌入的方法相比,标准化流能够学习更复杂的分布,并且具有可逆性,从而可以进行更精确的似然估计。此外,BUSSARD采用多模态嵌入,利用语言模型的语义知识,提高了模型对语义变体的鲁棒性。
关键设计:在技术细节上,BUSSARD的关键设计包括:1) 标准化流的结构:采用堆叠多个仿射耦合层(Affine Coupling Layers)或类似的可逆变换层来构建标准化流模型。2) 损失函数:使用负对数似然(Negative Log-Likelihood)作为损失函数,优化标准化流模型的参数,使得正常关系的三元组在基础分布上具有较高的似然值。3) 阈值设定:通过在验证集上调整阈值,确定最佳的异常检测性能。
🖼️ 关键图片
📊 实验亮点
BUSSARD在SARD数据集上取得了显著的性能提升,AUROC指标比当前最先进的模型提高了约10%,同时推理速度提高了5倍。消融实验表明,BUSSARD对同义词等语义变体具有更强的鲁棒性,在同义词干扰下,性能保持稳定,而基线模型性能下降17.5%。
🎯 应用场景
BUSSARD可应用于智能监控、工业异常检测、自动驾驶等领域。例如,在智能监控中,可以检测异常的人际互动或物体关系;在工业异常检测中,可以识别生产线上不符合规范的操作;在自动驾驶中,可以检测道路上不寻常的物体行为,从而提高安全性。
📄 摘要(原文)
We propose Bijective Universal Scene-Specific Anomalous Relationship Detection (BUSSARD), a normalizing flow-based model for detecting anomalous relations in scene graphs, generated from images. Our work follows a multimodal approach, embedding object and relationship tokens from scene graphs with a language model to leverage semantic knowledge from the real world. A normalizing flow model is used to learn bijective transformations that map object-relation-object triplets from scene graphs to a simple base distribution (typically Gaussian), allowing anomaly detection through likelihood estimation. We evaluate our approach on the SARD dataset containing office and dining room scenes. Our method achieves around 10% better AUROC results compared to the current state-of-the-art model, while simultaneously being five times faster. Through ablation studies, we demonstrate superior robustness and universality, particularly regarding the use of synonyms, with our model maintaining stable performance while the baseline shows 17.5% deviation. This work demonstrates the strong potential of learning-based methods for relationship anomaly detection in scene graphs. Our code is available at https://github.com/mschween/BUSSARD .