CAGE-SGG: Counterfactual Active Graph Evidence for Open-Vocabulary Scene Graph Generation
作者: Suiyang Guang, Chenyu Liu, Ruohan Zhang, Siyuan Chen
分类: cs.CV
发布日期: 2026-04-24
💡 一句话要点
提出基于反事实主动图证据的CAGE-SGG框架,解决开放词汇场景图生成中的可靠性问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 场景图生成 开放词汇 反事实推理 视觉-语言模型 关系验证
📋 核心要点
- 现有开放词汇场景图生成方法易受语言先验和对象共现影响,缺乏可靠的视觉证据支撑。
- 提出CAGE-SGG框架,通过反事实关系验证,确保预测关系得到视觉、几何和上下文证据的支持。
- 实验表明,CAGE-SGG在多个SGG基准上显著提升了性能,尤其是在未见谓词泛化和反事实基础质量方面。
📝 摘要(中文)
开放词汇场景图生成(SGG)旨在用灵活和细粒度的关系短语来描述视觉场景,超越了固定的谓词词汇表。虽然最近的视觉-语言模型极大地扩展了SGG的语义覆盖范围,但它们也引入了一个关键的可靠性问题:预测的关系可能由语言先验或对象共现驱动,而不是基于视觉证据。本文提出了一种基于反事实关系验证的证据完备的开放词汇SGG框架。我们的方法不是直接接受看似合理的关系提议,而是验证每个候选关系是否得到特定于关系的视觉、几何和上下文证据的支持。具体来说,我们首先使用视觉-语言提议器生成开放词汇关系候选,然后将谓词短语分解为软证据基础,如支持、接触、包含、深度、运动和状态。关系条件证据编码器提取与谓词相关的线索,而反事实验证器测试当必要的证据被移除时关系分数是否降低,以及在不相关的扰动下是否保持稳定。我们进一步引入了矛盾感知谓词学习和图级偏好优化,以提高细粒度区分和全局图一致性。在传统、开放词汇和全景SGG基准上的实验表明,我们的方法始终提高了基于召回率的标准指标、未见谓词泛化和反事实基础质量。这些结果表明,从关系生成到关系验证的转变可以产生更可靠、可解释和基于证据的场景图。
🔬 方法详解
问题定义:开放词汇场景图生成旨在超越固定词汇表,用更灵活的关系短语描述场景。然而,现有方法,特别是依赖视觉-语言模型的方法,容易受到语言先验和对象共现的影响,导致生成的场景图缺乏可靠的视觉证据支撑。这使得模型容易预测实际上不存在的关系,降低了场景图的质量和可信度。
核心思路:CAGE-SGG的核心思路是将关系生成问题转化为关系验证问题。与其直接生成看似合理的关系,不如验证每个候选关系是否得到充分的视觉证据支持。通过反事实推理,判断移除关键证据后关系的可信度是否会显著下降,从而筛选出真正基于视觉信息的可靠关系。
技术框架:CAGE-SGG框架包含以下几个主要模块:1) 开放词汇关系提议器:利用视觉-语言模型生成候选关系;2) 证据分解:将谓词短语分解为软证据基础,例如支持、接触、包含、深度、运动和状态等;3) 关系条件证据编码器:提取与谓词相关的视觉、几何和上下文线索;4) 反事实验证器:通过移除关键证据并观察关系分数的变化,验证关系的可靠性;5) 矛盾感知谓词学习:提高细粒度区分能力;6) 图级偏好优化:提升全局图一致性。
关键创新:CAGE-SGG的关键创新在于引入了反事实关系验证机制。与传统的直接生成关系的方法不同,CAGE-SGG通过主动移除和扰动证据,来验证关系是否真正依赖于视觉信息。这种反事实推理的方式能够有效减少语言先验的影响,提高场景图的可靠性和可解释性。
关键设计:在证据分解阶段,论文定义了一组软证据基础,用于描述不同类型的关系。关系条件证据编码器采用Transformer结构,学习谓词与证据之间的关系。反事实验证器通过计算移除关键证据前后关系分数的差异,来判断关系的可靠性。此外,论文还设计了矛盾感知损失函数和图级偏好损失函数,分别用于提高细粒度区分能力和全局图一致性。
🖼️ 关键图片
📊 实验亮点
CAGE-SGG在多个场景图生成基准测试中取得了显著的性能提升。在开放词汇场景图生成任务中,CAGE-SGG在Recall@K指标上优于现有方法。尤其值得一提的是,CAGE-SGG在未见谓词的泛化能力方面表现出色,证明了其能够更好地理解和识别新的关系类型。此外,反事实验证实验表明,CAGE-SGG生成的场景图具有更高的反事实基础质量,更符合人类的直觉。
🎯 应用场景
该研究成果可应用于机器人导航、图像检索、视频监控、智能交通等领域。通过生成更可靠、可解释的场景图,可以提升机器人对环境的理解能力,提高图像检索的准确性,并为视频监控提供更丰富的语义信息。未来,该方法有望应用于自动驾驶领域,帮助车辆更好地理解周围环境,提高行驶安全性。
📄 摘要(原文)
Open-vocabulary scene graph generation (SGG) aims to describe visual scenes with flexible and fine-grained relation phrases beyond a fixed predicate vocabulary. While recent vision-language models greatly expand the semantic coverage of SGG, they also introduce a critical reliability issue: predicted relations may be driven by language priors or object co-occurrence rather than grounded visual evidence. In this paper, we propose an evidence-rounded open-vocabulary SGG framework based on counterfactual relation verification. Instead of directly accepting plausible relation proposals, our method verifies whether each candidate relation is supported by relation-pecific visual, geometric, and contextual evidence. Specifically, we first generate open-vocabulary relation candidates with a vision-language proposer, then decompose predicate phrases into soft evidence bases such as support, contact, containment, depth, motion, and state. A relation-conditioned evidence encoder extracts predicate-relevant cues, while a counterfactual verifier tests whether the relation score decreases when necessary vidence is removed and remains stable under irrelevant perturbations. We further introduce contradiction-aware predicate learning and graph-level preference optimization to improve fine-grained discrimination and global graph consistency. Experiments on conventional, open-vocabulary, and panoptic SGG benchmarks show that our method consistently improves standard recall-based metrics, unseen predicate generalization, and counterfactual grounding quality. These results demonstrate that moving from relation generation to relation verification leads to more reliable, interpretable, and evidence-grounded scene graphs.