BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation

作者: Haechan Mark Bong, Ricardo de Azambuja, Giovanni Beltrame

分类: cs.RO

发布日期: 2024-10-16

💡 一句话要点

BlabberSeg：用于无人机实时嵌入式开放词汇空中分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 无人机 实时分割 开放词汇分割 嵌入式系统 视觉-语言模型

📋 核心要点

无人机实时空中图像分割对于无人机的环境感知至关重要，但现有方法难以在计算资源有限的嵌入式平台上实现。
BlabberSeg通过复用CLIPSeg的提示和模型特征，减少了计算冗余，从而在保证精度的情况下显著提升了分割速度。
实验表明，BlabberSeg在NVIDIA Jetson Orin AGX上实现了16.78Hz的实时分割速度，相比原始CLIPSeg提升了927.41%，精度损失仅为2.1%。

📝 摘要（中文）

本文介绍BlabberSeg，这是一种基于CLIPSeg构建的优化视觉-语言模型，专为无人机（UAV）的机载实时空中图像分割而设计。BlabberSeg通过复用提示和模型特征来提高CLIPSeg的效率，从而减少计算开销，同时实现实时的开放词汇空中分割。我们在动态开放词汇增强智能安全着陆（DOVESEI）框架中使用视觉伺服和开放词汇分割验证了BlabberSeg在安全着陆场景中的性能。结果表明，BlabberSeg显著降低了计算成本，在NVIDIA Jetson Orin AGX（64GB）上的速度提高了927.41%（16.78 Hz），而原始CLIPSeg的速度为1.81Hz，实现了实时空中分割，且精度损失可忽略不计（正确分割区域相对于CLIPSeg的比例仅下降2.1%）。BlabberSeg的源代码已开源并可在线获取。

🔬 方法详解

问题定义：论文旨在解决无人机在嵌入式平台上进行实时、开放词汇空中图像分割的问题。现有的视觉-语言模型，如CLIPSeg，虽然在开放词汇分割方面表现出色，但计算量大，难以在资源受限的无人机载平台上实现实时处理。

核心思路：BlabberSeg的核心思路是通过特征复用来减少计算冗余。具体来说，它复用CLIPSeg中prompt的特征和图像模型的特征，避免重复计算，从而显著提升分割速度。这种设计基于观察到CLIPSeg在处理连续帧时，prompt和图像特征的变化相对较小。

技术框架：BlabberSeg的整体框架基于CLIPSeg。它主要包含文本编码器、图像编码器和分割解码器三个模块。BlabberSeg的关键在于对CLIPSeg的优化，使其能够在嵌入式平台上实时运行。具体流程是：首先，输入图像和文本提示；然后，文本编码器提取文本特征，图像编码器提取图像特征；最后，分割解码器将文本和图像特征融合，生成分割结果。为了实现实时性，BlabberSeg会缓存并复用文本和图像特征，避免重复计算。

关键创新：BlabberSeg最关键的创新点在于特征复用机制。与原始CLIPSeg每次都重新计算所有特征不同，BlabberSeg会缓存文本和图像特征，并在后续帧中复用这些特征。只有当文本提示或图像内容发生显著变化时，才会重新计算特征。这种方法极大地减少了计算量，从而实现了实时分割。

关键设计：BlabberSeg的关键设计包括：1) 特征缓存策略：确定何时复用缓存的特征，以及何时重新计算特征。这可能涉及到设定阈值，例如，当图像或文本特征的变化超过一定阈值时，就重新计算特征。2) 优化后的分割解码器：针对嵌入式平台进行优化，减少计算量和内存占用。3) 损失函数：使用与CLIPSeg相同的损失函数，以保证分割精度。

📊 实验亮点

BlabberSeg在NVIDIA Jetson Orin AGX (64GB)上实现了显著的性能提升，分割速度达到16.78 Hz，相比原始CLIPSeg的1.81 Hz提升了927.41%。同时，精度损失非常小，正确分割区域相对于CLIPSeg的比例仅下降了2.1%。这些结果表明，BlabberSeg能够在嵌入式平台上实现实时、高精度的开放词汇空中分割。

🎯 应用场景

BlabberSeg可应用于多种无人机应用场景，例如自主导航、环境监测、灾害救援和农业巡检。通过实时分割空中图像，无人机可以更好地理解周围环境，从而实现更安全、更高效的飞行。例如，在安全着陆场景中，无人机可以利用BlabberSeg识别着陆区域，并进行精确着陆。未来，BlabberSeg可以与其他传感器和算法相结合，实现更高级的无人机智能。

📄 摘要（原文）

Real-time aerial image segmentation plays an important role in the environmental perception of Uncrewed Aerial Vehicles (UAVs). We introduce BlabberSeg, an optimized Vision-Language Model built on CLIPSeg for on-board, real-time processing of aerial images by UAVs. BlabberSeg improves the efficiency of CLIPSeg by reusing prompt and model features, reducing computational overhead while achieving real-time open-vocabulary aerial segmentation. We validated BlabberSeg in a safe landing scenario using the Dynamic Open-Vocabulary Enhanced SafE-Landing with Intelligence (DOVESEI) framework, which uses visual servoing and open-vocabulary segmentation. BlabberSeg reduces computational costs significantly, with a speed increase of 927.41% (16.78 Hz) on a NVIDIA Jetson Orin AGX (64GB) compared with the original CLIPSeg (1.81Hz), achieving real-time aerial segmentation with negligible loss in accuracy (2.1% as the ratio of the correctly segmented area with respect to CLIPSeg). BlabberSeg's source code is open and available online.

BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理