Towards Real-Time Open-Vocabulary Video Instance Segmentation

作者: Bin Yan, Martin Sundermeyer, David Joseph Tan, Huchuan Lu, Federico Tombari

分类: cs.CV

发布日期: 2024-12-05

🔗 代码/项目: GITHUB

💡 一句话要点

提出TROY-VIS，加速开放词汇视频实例分割，实现实时性。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇视频实例分割 实时性 解耦注意力 闪存嵌入记忆 核插值 视频理解 实例分割

📋 核心要点

现有开放词汇视频实例分割方法计算量大，难以满足实时性需求，限制了其在动态环境中的应用。
TROY-VIS通过解耦注意力、闪存嵌入记忆和核插值等技术，加速信息交互、文本嵌入和时间连续性利用。
实验结果表明，TROY-VIS在精度相当甚至更优的情况下，速度比现有方法快20倍，实现了实时OV-VIS。

📝 摘要（中文）

本文旨在解决实时开放词汇视频实例分割（OV-VIS）的挑战。通过分析现有OV-VIS基础模型的计算瓶颈，我们提出了一种名为TROY-VIS的新方法，该方法在保持高精度的同时显著提高了处理速度。我们引入了三个关键技术：（1）解耦注意力特征增强器，用于加速不同模态和尺度之间的信息交互；（2）闪存嵌入记忆，用于快速获取对象类别的文本嵌入；（3）核插值，用于利用视频中的时间连续性。实验表明，TROY-VIS在两个大型OV-VIS基准测试BURST和LV-VIS上实现了精度和速度之间的最佳平衡，比GLEE-Lite快20倍（25 FPS vs. 1.25 FPS），并且具有相当甚至更好的精度。这些结果证明了TROY-VIS在移动机器人和增强现实等动态环境中实时应用的潜力。

🔬 方法详解

问题定义：论文旨在解决开放词汇视频实例分割（OV-VIS）任务中，现有方法计算复杂度高、难以达到实时性的问题。现有方法通常依赖于计算量大的基础模型，例如Transformer，导致处理速度慢，无法满足实时应用的需求。尤其是在移动机器人和增强现实等动态环境中，实时性至关重要。

核心思路：TROY-VIS的核心思路是通过解耦注意力机制、引入闪存嵌入记忆和利用核插值来降低计算复杂度，从而加速整个OV-VIS流程。解耦注意力机制旨在减少不同模态和尺度之间的信息交互计算量；闪存嵌入记忆用于快速检索文本嵌入，避免重复计算；核插值则利用视频帧之间的时间连续性，减少冗余计算。

技术框架：TROY-VIS的整体框架包含以下几个主要模块：(1) 视觉特征提取模块，用于提取视频帧的视觉特征；(2) 解耦注意力特征增强器，用于增强视觉特征，并融合文本信息；(3) 闪存嵌入记忆，用于存储和快速检索文本嵌入；(4) 核插值模块，用于利用时间连续性，减少计算量；(5) 分割头，用于生成实例分割结果。整个流程首先提取视觉特征，然后通过解耦注意力增强特征，并结合闪存嵌入的文本信息，最后利用核插值和分割头生成最终的分割结果。

关键创新：TROY-VIS最重要的技术创新在于三个方面：(1) 解耦注意力特征增强器，它将传统的注意力机制分解为多个独立的注意力模块，从而减少计算量；(2) 闪存嵌入记忆，它通过预先计算并存储文本嵌入，避免了在每一帧都进行文本编码的重复计算；(3) 核插值，它利用视频帧之间的时间连续性，通过插值的方式估计相邻帧的特征，从而减少需要处理的帧数。与现有方法相比，TROY-VIS在保证精度的前提下，显著降低了计算复杂度，实现了实时性。

关键设计：解耦注意力特征增强器采用了多头注意力机制，并将注意力计算分解为空间注意力和通道注意力两个部分。闪存嵌入记忆使用了预训练的文本编码器（例如CLIP）来生成文本嵌入，并使用哈希表来存储和检索这些嵌入。核插值采用了高斯核函数来进行插值，并根据帧之间的距离调整插值权重。损失函数包括分割损失和一致性损失，用于保证分割的准确性和时间一致性。

🖼️ 关键图片

📊 实验亮点

TROY-VIS在BURST和LV-VIS两个大规模OV-VIS基准测试上取得了显著的性能提升。在速度方面，TROY-VIS比GLEE-Lite快20倍（25 FPS vs. 1.25 FPS）。在精度方面，TROY-VIS在BURST数据集上取得了与GLEE-Lite相当的性能，而在LV-VIS数据集上甚至超过了GLEE-Lite。这些结果表明，TROY-VIS在精度和速度之间取得了最佳的平衡。

🎯 应用场景

TROY-VIS的实时OV-VIS能力使其在多个领域具有广泛的应用前景，例如移动机器人、增强现实、自动驾驶和视频监控。在移动机器人中，它可以帮助机器人实时理解周围环境，并进行目标识别和跟踪。在增强现实中，它可以实现虚拟物体与真实场景的无缝融合。在自动驾驶中，它可以提高车辆对复杂场景的感知能力。在视频监控中，它可以实现智能分析和异常检测。

📄 摘要（原文）

In this paper, we address the challenge of performing open-vocabulary video instance segmentation (OV-VIS) in real-time. We analyze the computational bottlenecks of state-of-the-art foundation models that performs OV-VIS, and propose a new method, TROY-VIS, that significantly improves processing speed while maintaining high accuracy. We introduce three key techniques: (1) Decoupled Attention Feature Enhancer to speed up information interaction between different modalities and scales; (2) Flash Embedding Memory for obtaining fast text embeddings of object categories; and, (3) Kernel Interpolation for exploiting the temporal continuity in videos. Our experiments demonstrate that TROY-VIS achieves the best trade-off between accuracy and speed on two large-scale OV-VIS benchmarks, BURST and LV-VIS, running 20x faster than GLEE-Lite (25 FPS v.s. 1.25 FPS) with comparable or even better accuracy. These results demonstrate TROY-VIS's potential for real-time applications in dynamic environments such as mobile robotics and augmented reality. Code and model will be released at https://github.com/google-research/troyvis.

Towards Real-Time Open-Vocabulary Video Instance Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理