Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
作者: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath
分类: cs.CV
发布日期: 2025-11-20 (更新: 2025-11-25)
💡 一句话要点
提出Click2Graph,通过单次点击实现交互式全景视频场景图生成。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 视频场景图生成 人机交互 全景视频 视觉提示 关系推理
📋 核心要点
- 现有VSGG系统缺乏人机交互能力,而可提示分割模型缺乏语义和关系推理。
- Click2Graph通过单次用户提示,结合动态交互发现和语义分类,实现交互式PVSG。
- 实验表明,Click2Graph为用户引导的PVSG奠定了基础,实现了可控和可解释的视频场景理解。
📝 摘要(中文)
现有的视频场景图生成(VSGG)系统能够提供结构化的视觉理解,但作为封闭的前馈流程运行,无法融入人工指导。相比之下,诸如SAM2等可提示分割模型能够实现精确的用户交互,但缺乏语义或关系推理能力。我们提出了Click2Graph,这是第一个用于全景视频场景图生成(PVSG)的交互式框架,它将视觉提示与空间、时间和语义理解相结合。通过诸如点击或边界框等单次用户提示,Click2Graph能够分割并跟踪目标在时间上的变化,自主发现交互对象,并预测<主体,对象,谓词>三元组以形成时间上一致的场景图。我们的框架引入了两个关键组件:一个动态交互发现模块,用于生成以主体为条件的物体提示;以及一个语义分类头,用于执行联合实体和谓词推理。在OpenPVSG基准上的实验表明,Click2Graph为用户引导的PVSG奠定了坚实的基础,展示了如何将人工提示与全景基础和关系推理相结合,以实现可控和可解释的视频场景理解。
🔬 方法详解
问题定义:现有的视频场景图生成方法通常是全自动的,缺乏人机交互能力,用户无法根据自身需求引导场景图的生成。虽然一些可提示分割模型允许用户交互,但它们主要关注分割任务,缺乏对场景中实体间关系的理解和推理能力。因此,如何将用户交互融入到视频场景图生成中,实现可控的、符合用户意图的场景图生成是一个挑战。
核心思路:Click2Graph的核心思路是通过单次用户点击或边界框作为提示,引导系统自动完成目标的分割、跟踪、交互对象发现和关系推理。这种方法结合了用户的主观意图和模型的自动推理能力,从而生成更符合用户需求的场景图。通过动态交互发现模块和语义分类头,实现了从用户提示到完整场景图的转换。
技术框架:Click2Graph框架主要包含以下几个模块:1) 用户提示模块:接收用户的点击或边界框输入。2) 目标分割与跟踪模块:根据用户提示分割并跟踪目标对象在视频中的运动轨迹。3) 动态交互发现模块:基于目标对象,自动发现与其交互的其他对象,并生成相应的提示。4) 语义分类头:对目标对象和交互对象之间的关系进行推理,预测<主体,对象,谓词>三元组。5) 场景图构建模块:将预测的三元组组合成时间上一致的场景图。
关键创新:Click2Graph的关键创新在于:1) 提出了一个交互式的PVSG框架,允许用户通过简单的点击或边界框来引导场景图的生成。2) 引入了动态交互发现模块,能够根据目标对象自动发现与其交互的其他对象,从而减少了用户的手动干预。3) 设计了语义分类头,能够联合进行实体和谓词的推理,提高了关系预测的准确性。
关键设计:动态交互发现模块通过学习目标对象和周围对象之间的空间关系,生成以目标对象为条件的物体提示。语义分类头采用多层感知机(MLP)结构,输入是目标对象和交互对象的视觉特征,输出是实体类别和谓词的概率分布。损失函数采用交叉熵损失,用于优化实体和谓词的分类性能。具体参数设置和网络结构细节在论文中未明确给出,属于未知信息。
📊 实验亮点
Click2Graph在OpenPVSG基准测试上取得了显著成果,证明了用户提示能够有效提升PVSG的性能。具体性能数据和对比基线在摘要中未明确给出,属于未知信息。该研究表明,将人工提示与全景基础和关系推理相结合,能够实现可控和可解释的视频场景理解。
🎯 应用场景
Click2Graph可应用于视频编辑、智能监控、机器人导航等领域。例如,在视频编辑中,用户可以通过点击视频中的某个对象,快速生成包含该对象及其相关关系的场景图,从而方便进行视频内容的理解和编辑。在智能监控中,可以根据用户的关注点,自动分析视频中的异常行为和事件。在机器人导航中,可以帮助机器人理解周围环境,从而实现更智能的导航和交互。
📄 摘要(原文)
State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts
triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.