UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning

作者: Huy Le, Nhat Chung, Tung Kieu, Jingkang Yang, Ngan Le

分类: cs.CV, cs.AI

发布日期: 2025-09-07 (更新: 2025-12-11)

备注: 11 pages, 7 figures. Accepted at WACV 2026

💡 一句话要点

UNO：提出统一的单阶段视频场景图生成框架，通过对象中心视觉表征学习同时处理box-level和pixel-level任务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频场景图生成 对象中心表示 单阶段框架 时间一致性学习 Slot Attention 动态关系建模 视觉关系推理

📋 核心要点

现有视频场景图生成方法通常需要针对box-level或pixel-level任务设计特定架构和多阶段训练流程，缺乏通用性。
UNO框架通过扩展的slot attention机制将视觉特征分解为对象和关系槽，并引入对象时间一致性学习，实现统一建模。
实验结果表明，UNO在box-level和pixel-level VidSGG基准上均取得了具有竞争力的性能，并提高了效率。

📝 摘要（中文）

视频场景图生成(VidSGG)旨在通过检测对象并将其时间交互建模为结构化图来表示动态视觉内容。以往的研究通常针对粗粒度的box-level或细粒度的panoptic pixel-level VidSGG，通常需要特定于任务的架构和多阶段训练流程。本文提出了UNO (UNified Object-centric VidSGG)，这是一个单阶段、统一的框架，可以在端到端架构中联合处理这两个任务。UNO旨在最小化特定于任务的修改并最大化参数共享，从而实现跨不同视觉粒度的泛化。UNO的核心是扩展的slot attention机制，它将视觉特征分解为对象和关系槽。为了确保鲁棒的时间建模，我们引入了对象时间一致性学习，它强制跨帧一致的对象表示，而无需依赖显式跟踪模块。此外，动态三元组预测模块将关系槽链接到相应的对象对，从而捕获随时间变化的交互。我们在标准box-level和pixel-level VidSGG基准上评估了UNO。结果表明，UNO不仅在两个任务上都取得了具有竞争力的性能，而且通过统一的、以对象为中心的设计提供了更高的效率。

🔬 方法详解

问题定义：视频场景图生成旨在从视频中提取对象及其关系，构建动态场景的结构化表示。现有方法通常针对box-level（粗粒度）或pixel-level（细粒度）任务分别设计，需要不同的架构和训练流程，缺乏统一性和效率。这些方法难以在不同粒度级别上泛化，且多阶段训练流程复杂。

核心思路：UNO的核心思路是采用统一的、以对象为中心的视觉表征学习方法，通过单阶段框架同时处理box-level和pixel-level VidSGG任务。通过将视觉特征分解为对象和关系槽，并引入时间一致性学习，实现跨不同粒度级别的泛化能力。这种统一的设计旨在减少任务特定的修改，并最大化参数共享，从而提高效率。

技术框架：UNO框架主要包含以下几个关键模块：1) 特征提取模块：用于提取视频帧的视觉特征。2) Slot Attention模块：将视觉特征分解为对象槽和关系槽，每个槽代表一个潜在的对象或关系。3) 对象时间一致性学习模块：通过约束相邻帧中相同对象的特征表示，增强时间建模的鲁棒性，无需显式跟踪。4) 动态三元组预测模块：将关系槽链接到相应的对象对，预测对象之间的关系。整个框架采用端到端的方式进行训练。

关键创新：UNO的关键创新在于其统一的、以对象为中心的单阶段设计。与以往需要针对不同粒度级别设计不同架构的方法不同，UNO通过扩展的slot attention机制和对象时间一致性学习，实现了跨box-level和pixel-level任务的泛化能力。此外，动态三元组预测模块能够有效地捕获对象之间随时间变化的交互关系。

关键设计：UNO的关键设计包括：1) 扩展的Slot Attention机制：用于将视觉特征分解为对象和关系槽。2) 对象时间一致性损失：用于约束相邻帧中相同对象的特征表示，提高时间建模的鲁棒性。具体实现上，可以使用对比学习损失或均方误差损失来衡量对象特征的一致性。3) 动态三元组预测模块：使用分类器预测关系槽对应的对象对，并预测关系类别。4) 整体损失函数：由对象检测损失、关系预测损失和时间一致性损失加权组成。

🖼️ 关键图片

📊 实验亮点

UNO在box-level和pixel-level VidSGG基准上均取得了具有竞争力的性能。具体而言，在box-level VidSGG任务上，UNO的性能与现有最佳方法相当，同时具有更高的效率。在pixel-level VidSGG任务上，UNO也取得了有竞争力的结果，证明了其在不同粒度级别上的泛化能力。此外，消融实验验证了对象时间一致性学习和动态三元组预测模块的有效性。

🎯 应用场景

UNO框架具有广泛的应用前景，例如智能视频监控、自动驾驶、人机交互等领域。它可以用于理解视频中的动态场景，识别对象及其交互关系，为后续的任务提供结构化的信息。例如，在自动驾驶中，UNO可以用于识别车辆、行人以及它们之间的交互关系，从而提高驾驶安全性。在视频监控中，UNO可以用于检测异常行为，例如打架斗殴等。

📄 摘要（原文）

Video Scene Graph Generation (VidSGG) aims to represent dynamic visual content by detecting objects and modeling their temporal interactions as structured graphs. Prior studies typically target either coarse-grained box-level or fine-grained panoptic pixel-level VidSGG, often requiring task-specific architectures and multi-stage training pipelines. In this paper, we present UNO (UNified Object-centric VidSGG), a single-stage, unified framework that jointly addresses both tasks within an end-to-end architecture. UNO is designed to minimize task-specific modifications and maximize parameter sharing, enabling generalization across different levels of visual granularity. The core of UNO is an extended slot attention mechanism that decomposes visual features into object and relation slots. To ensure robust temporal modeling, we introduce object temporal consistency learning, which enforces consistent object representations across frames without relying on explicit tracking modules. Additionally, a dynamic triplet prediction module links relation slots to corresponding object pairs, capturing evolving interactions over time. We evaluate UNO on standard box-level and pixel-level VidSGG benchmarks. Results demonstrate that UNO not only achieves competitive performance across both tasks but also offers improved efficiency through a unified, object-centric design.

UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理