Towards Real-Time Open-Vocabulary Video Instance Segmentation

📄 arXiv: 2412.04434v1 📥 PDF

作者: Bin Yan, Martin Sundermeyer, David Joseph Tan, Huchuan Lu, Federico Tombari

分类: cs.CV

发布日期: 2024-12-05

🔗 代码/项目: GITHUB


💡 一句话要点

提出TROY-VIS,加速开放词汇视频实例分割,实现实时性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇视频实例分割 实时性 解耦注意力 闪存嵌入记忆 核插值 视频理解 实例分割

📋 核心要点

  1. 现有开放词汇视频实例分割方法计算量大,难以满足实时性需求,限制了其在动态环境中的应用。
  2. TROY-VIS通过解耦注意力、闪存嵌入记忆和核插值等技术,加速信息交互、文本嵌入和时间连续性利用。
  3. 实验结果表明,TROY-VIS在精度相当甚至更优的情况下,速度比现有方法快20倍,实现了实时OV-VIS。

📝 摘要(中文)

本文旨在解决实时开放词汇视频实例分割(OV-VIS)的挑战。通过分析现有OV-VIS基础模型的计算瓶颈,我们提出了一种名为TROY-VIS的新方法,该方法在保持高精度的同时显著提高了处理速度。我们引入了三个关键技术:(1)解耦注意力特征增强器,用于加速不同模态和尺度之间的信息交互;(2)闪存嵌入记忆,用于快速获取对象类别的文本嵌入;(3)核插值,用于利用视频中的时间连续性。实验表明,TROY-VIS在两个大型OV-VIS基准测试BURST和LV-VIS上实现了精度和速度之间的最佳平衡,比GLEE-Lite快20倍(25 FPS vs. 1.25 FPS),并且具有相当甚至更好的精度。这些结果证明了TROY-VIS在移动机器人和增强现实等动态环境中实时应用的潜力。

🔬 方法详解

问题定义:论文旨在解决开放词汇视频实例分割(OV-VIS)任务中,现有方法计算复杂度高、难以达到实时性的问题。现有方法通常依赖于计算量大的基础模型,例如Transformer,导致处理速度慢,无法满足实时应用的需求。尤其是在移动机器人和增强现实等动态环境中,实时性至关重要。

核心思路:TROY-VIS的核心思路是通过解耦注意力机制、引入闪存嵌入记忆和利用核插值来降低计算复杂度,从而加速整个OV-VIS流程。解耦注意力机制旨在减少不同模态和尺度之间的信息交互计算量;闪存嵌入记忆用于快速检索文本嵌入,避免重复计算;核插值则利用视频帧之间的时间连续性,减少冗余计算。

技术框架:TROY-VIS的整体框架包含以下几个主要模块:(1) 视觉特征提取模块,用于提取视频帧的视觉特征;(2) 解耦注意力特征增强器,用于增强视觉特征,并融合文本信息;(3) 闪存嵌入记忆,用于存储和快速检索文本嵌入;(4) 核插值模块,用于利用时间连续性,减少计算量;(5) 分割头,用于生成实例分割结果。整个流程首先提取视觉特征,然后通过解耦注意力增强特征,并结合闪存嵌入的文本信息,最后利用核插值和分割头生成最终的分割结果。

关键创新:TROY-VIS最重要的技术创新在于三个方面:(1) 解耦注意力特征增强器,它将传统的注意力机制分解为多个独立的注意力模块,从而减少计算量;(2) 闪存嵌入记忆,它通过预先计算并存储文本嵌入,避免了在每一帧都进行文本编码的重复计算;(3) 核插值,它利用视频帧之间的时间连续性,通过插值的方式估计相邻帧的特征,从而减少需要处理的帧数。与现有方法相比,TROY-VIS在保证精度的前提下,显著降低了计算复杂度,实现了实时性。

关键设计:解耦注意力特征增强器采用了多头注意力机制,并将注意力计算分解为空间注意力和通道注意力两个部分。闪存嵌入记忆使用了预训练的文本编码器(例如CLIP)来生成文本嵌入,并使用哈希表来存储和检索这些嵌入。核插值采用了高斯核函数来进行插值,并根据帧之间的距离调整插值权重。损失函数包括分割损失和一致性损失,用于保证分割的准确性和时间一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TROY-VIS在BURST和LV-VIS两个大规模OV-VIS基准测试上取得了显著的性能提升。在速度方面,TROY-VIS比GLEE-Lite快20倍(25 FPS vs. 1.25 FPS)。在精度方面,TROY-VIS在BURST数据集上取得了与GLEE-Lite相当的性能,而在LV-VIS数据集上甚至超过了GLEE-Lite。这些结果表明,TROY-VIS在精度和速度之间取得了最佳的平衡。

🎯 应用场景

TROY-VIS的实时OV-VIS能力使其在多个领域具有广泛的应用前景,例如移动机器人、增强现实、自动驾驶和视频监控。在移动机器人中,它可以帮助机器人实时理解周围环境,并进行目标识别和跟踪。在增强现实中,它可以实现虚拟物体与真实场景的无缝融合。在自动驾驶中,它可以提高车辆对复杂场景的感知能力。在视频监控中,它可以实现智能分析和异常检测。

📄 摘要(原文)

In this paper, we address the challenge of performing open-vocabulary video instance segmentation (OV-VIS) in real-time. We analyze the computational bottlenecks of state-of-the-art foundation models that performs OV-VIS, and propose a new method, TROY-VIS, that significantly improves processing speed while maintaining high accuracy. We introduce three key techniques: (1) Decoupled Attention Feature Enhancer to speed up information interaction between different modalities and scales; (2) Flash Embedding Memory for obtaining fast text embeddings of object categories; and, (3) Kernel Interpolation for exploiting the temporal continuity in videos. Our experiments demonstrate that TROY-VIS achieves the best trade-off between accuracy and speed on two large-scale OV-VIS benchmarks, BURST and LV-VIS, running 20x faster than GLEE-Lite (25 FPS v.s. 1.25 FPS) with comparable or even better accuracy. These results demonstrate TROY-VIS's potential for real-time applications in dynamic environments such as mobile robotics and augmented reality. Code and model will be released at https://github.com/google-research/troyvis.