OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning

📄 arXiv: 2404.03657v2 📥 PDF

作者: Anwesa Choudhuri, Girish Chowdhary, Alexander G. Schwing

分类: cs.CV, cs.AI

发布日期: 2024-04-04 (更新: 2024-12-09)

备注: Project page: https://anwesachoudhuri.github.io/OpenWorldVISCap/

期刊: NeurIPS 2024


💡 一句话要点

提出OW-VISCapTor以解决开放世界视频实例分割与描述问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界理解 视频实例分割 多模态学习 对象检测 语言生成

📋 核心要点

  1. 开放世界视频实例分割与描述任务面临的挑战在于如何有效检测和描述从未见过的对象,现有方法在这方面表现不足。
  2. 论文提出的解决方案是通过抽象器将视觉模型与语言模型连接,利用对象查询发现新对象,并生成描述性标题。
  3. 实验结果表明,该方法在从未见过的对象上提升了13%,在对象中心标题上提升了10%,显著优于现有基线。

📝 摘要(中文)

本文提出了新的任务'开放世界视频实例分割与描述',要求检测、分割、跟踪并描述从未见过的对象。为此,开发了'抽象器',将视觉模型与语言基础模型连接起来。具体而言,通过对象抽象器和对象到文本抽象器,将多尺度视觉特征提取器与大型语言模型(LLM)相连接。对象抽象器通过引入空间多样的开放世界对象查询来发现视频中的新对象,并通过交叉对比损失进一步鼓励对象查询的多样性。对象到文本抽象器则通过掩蔽交叉注意力机制,作为对象查询与冻结的LLM之间的桥梁,为每个检测到的对象生成丰富的描述性标题。我们的通用方法在从未见过的对象上超越了基线模型13%,在对象中心标题上提升了10%。

🔬 方法详解

问题定义:本文旨在解决开放世界视频实例分割与描述任务,现有方法在处理未见对象时的准确性和描述能力不足。

核心思路:通过设计对象抽象器和对象到文本抽象器,将视觉特征提取与语言生成结合,能够有效识别和描述新对象。

技术框架:整体架构包括多尺度视觉特征提取器、对象抽象器(包含提示编码器和变换器模块)以及对象到文本抽象器,后者通过掩蔽交叉注意力与冻结的LLM连接。

关键创新:最重要的创新在于引入空间多样的开放世界对象查询和交叉对比损失,促进对象查询的多样性,从而提高检测和描述的准确性。

关键设计:对象抽象器的设计包括提示编码器和变换器模块,采用交叉对比损失来增强查询多样性;对象到文本抽象器则通过掩蔽交叉注意力机制与LLM交互,生成丰富的描述性标题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,提出的方法在从未见过的对象上相较于基线模型提升了13%,在对象中心标题生成上提升了10%,证明了其在开放世界视频理解任务中的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括视频监控、自动驾驶、智能家居等场景,能够帮助系统更好地理解和描述复杂环境中的新对象,提升人机交互的智能化水平。未来,该技术可能在多模态学习和开放世界理解中发挥重要作用。

📄 摘要(原文)

We propose the new task 'open-world video instance segmentation and captioning'. It requires to detect, segment, track and describe with rich captions never before seen objects. This challenging task can be addressed by developing "abstractors" which connect a vision model and a language foundation model. Concretely, we connect a multi-scale visual feature extractor and a large language model (LLM) by developing an object abstractor and an object-to-text abstractor. The object abstractor, consisting of a prompt encoder and transformer blocks, introduces spatially-diverse open-world object queries to discover never before seen objects in videos. An inter-query contrastive loss further encourages the diversity of object queries. The object-to-text abstractor is augmented with masked cross-attention and acts as a bridge between the object queries and a frozen LLM to generate rich and descriptive object-centric captions for each detected object. Our generalized approach surpasses the baseline that jointly addresses the tasks of open-world video instance segmentation and dense video object captioning by 13% on never before seen objects, and by 10% on object-centric captions.