CAGE-SGG: Counterfactual Active Graph Evidence for Open-Vocabulary Scene Graph Generation

作者: Suiyang Guang, Chenyu Liu, Ruohan Zhang, Siyuan Chen

分类: cs.CV

发布日期: 2026-04-24

💡 一句话要点

提出基于反事实主动图证据的CAGE-SGG框架，解决开放词汇场景图生成中的可靠性问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 场景图生成 开放词汇 反事实推理 视觉-语言模型 关系验证

📋 核心要点

现有开放词汇场景图生成方法易受语言先验和对象共现影响，缺乏可靠的视觉证据支撑。
提出CAGE-SGG框架，通过反事实关系验证，确保预测关系得到视觉、几何和上下文证据的支持。
实验表明，CAGE-SGG在多个SGG基准上显著提升了性能，尤其是在未见谓词泛化和反事实基础质量方面。

📝 摘要（中文）

开放词汇场景图生成(SGG)旨在用灵活和细粒度的关系短语来描述视觉场景，超越了固定的谓词词汇表。虽然最近的视觉-语言模型极大地扩展了SGG的语义覆盖范围，但它们也引入了一个关键的可靠性问题：预测的关系可能由语言先验或对象共现驱动，而不是基于视觉证据。本文提出了一种基于反事实关系验证的证据完备的开放词汇SGG框架。我们的方法不是直接接受看似合理的关系提议，而是验证每个候选关系是否得到特定于关系的视觉、几何和上下文证据的支持。具体来说，我们首先使用视觉-语言提议器生成开放词汇关系候选，然后将谓词短语分解为软证据基础，如支持、接触、包含、深度、运动和状态。关系条件证据编码器提取与谓词相关的线索，而反事实验证器测试当必要的证据被移除时关系分数是否降低，以及在不相关的扰动下是否保持稳定。我们进一步引入了矛盾感知谓词学习和图级偏好优化，以提高细粒度区分和全局图一致性。在传统、开放词汇和全景SGG基准上的实验表明，我们的方法始终提高了基于召回率的标准指标、未见谓词泛化和反事实基础质量。这些结果表明，从关系生成到关系验证的转变可以产生更可靠、可解释和基于证据的场景图。

🔬 方法详解

问题定义：开放词汇场景图生成旨在超越固定词汇表，用更灵活的关系短语描述场景。然而，现有方法，特别是依赖视觉-语言模型的方法，容易受到语言先验和对象共现的影响，导致生成的场景图缺乏可靠的视觉证据支撑。这使得模型容易预测实际上不存在的关系，降低了场景图的质量和可信度。

核心思路：CAGE-SGG的核心思路是将关系生成问题转化为关系验证问题。与其直接生成看似合理的关系，不如验证每个候选关系是否得到充分的视觉证据支持。通过反事实推理，判断移除关键证据后关系的可信度是否会显著下降，从而筛选出真正基于视觉信息的可靠关系。

技术框架：CAGE-SGG框架包含以下几个主要模块：1) 开放词汇关系提议器：利用视觉-语言模型生成候选关系；2) 证据分解：将谓词短语分解为软证据基础，例如支持、接触、包含、深度、运动和状态等；3) 关系条件证据编码器：提取与谓词相关的视觉、几何和上下文线索；4) 反事实验证器：通过移除关键证据并观察关系分数的变化，验证关系的可靠性；5) 矛盾感知谓词学习：提高细粒度区分能力；6) 图级偏好优化：提升全局图一致性。

关键创新：CAGE-SGG的关键创新在于引入了反事实关系验证机制。与传统的直接生成关系的方法不同，CAGE-SGG通过主动移除和扰动证据，来验证关系是否真正依赖于视觉信息。这种反事实推理的方式能够有效减少语言先验的影响，提高场景图的可靠性和可解释性。

关键设计：在证据分解阶段，论文定义了一组软证据基础，用于描述不同类型的关系。关系条件证据编码器采用Transformer结构，学习谓词与证据之间的关系。反事实验证器通过计算移除关键证据前后关系分数的差异，来判断关系的可靠性。此外，论文还设计了矛盾感知损失函数和图级偏好损失函数，分别用于提高细粒度区分能力和全局图一致性。

🖼️ 关键图片

📊 实验亮点

CAGE-SGG在多个场景图生成基准测试中取得了显著的性能提升。在开放词汇场景图生成任务中，CAGE-SGG在Recall@K指标上优于现有方法。尤其值得一提的是，CAGE-SGG在未见谓词的泛化能力方面表现出色，证明了其能够更好地理解和识别新的关系类型。此外，反事实验证实验表明，CAGE-SGG生成的场景图具有更高的反事实基础质量，更符合人类的直觉。

🎯 应用场景

该研究成果可应用于机器人导航、图像检索、视频监控、智能交通等领域。通过生成更可靠、可解释的场景图，可以提升机器人对环境的理解能力，提高图像检索的准确性，并为视频监控提供更丰富的语义信息。未来，该方法有望应用于自动驾驶领域，帮助车辆更好地理解周围环境，提高行驶安全性。

📄 摘要（原文）

Open-vocabulary scene graph generation (SGG) aims to describe visual scenes with flexible and fine-grained relation phrases beyond a fixed predicate vocabulary. While recent vision-language models greatly expand the semantic coverage of SGG, they also introduce a critical reliability issue: predicted relations may be driven by language priors or object co-occurrence rather than grounded visual evidence. In this paper, we propose an evidence-rounded open-vocabulary SGG framework based on counterfactual relation verification. Instead of directly accepting plausible relation proposals, our method verifies whether each candidate relation is supported by relation-pecific visual, geometric, and contextual evidence. Specifically, we first generate open-vocabulary relation candidates with a vision-language proposer, then decompose predicate phrases into soft evidence bases such as support, contact, containment, depth, motion, and state. A relation-conditioned evidence encoder extracts predicate-relevant cues, while a counterfactual verifier tests whether the relation score decreases when necessary vidence is removed and remains stable under irrelevant perturbations. We further introduce contradiction-aware predicate learning and graph-level preference optimization to improve fine-grained discrimination and global graph consistency. Experiments on conventional, open-vocabulary, and panoptic SGG benchmarks show that our method consistently improves standard recall-based metrics, unseen predicate generalization, and counterfactual grounding quality. These results demonstrate that moving from relation generation to relation verification leads to more reliable, interpretable, and evidence-grounded scene graphs.

CAGE-SGG: Counterfactual Active Graph Evidence for Open-Vocabulary Scene Graph Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理