BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
作者: Haechan Mark Bong, Ricardo de Azambuja, Giovanni Beltrame
分类: cs.RO
发布日期: 2024-10-16
💡 一句话要点
BlabberSeg:用于无人机实时嵌入式开放词汇空中分割
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 无人机 实时分割 开放词汇分割 嵌入式系统 视觉-语言模型
📋 核心要点
- 无人机实时空中图像分割对于无人机的环境感知至关重要,但现有方法难以在计算资源有限的嵌入式平台上实现。
- BlabberSeg通过复用CLIPSeg的提示和模型特征,减少了计算冗余,从而在保证精度的情况下显著提升了分割速度。
- 实验表明,BlabberSeg在NVIDIA Jetson Orin AGX上实现了16.78Hz的实时分割速度,相比原始CLIPSeg提升了927.41%,精度损失仅为2.1%。
📝 摘要(中文)
本文介绍BlabberSeg,这是一种基于CLIPSeg构建的优化视觉-语言模型,专为无人机(UAV)的机载实时空中图像分割而设计。BlabberSeg通过复用提示和模型特征来提高CLIPSeg的效率,从而减少计算开销,同时实现实时的开放词汇空中分割。我们在动态开放词汇增强智能安全着陆(DOVESEI)框架中使用视觉伺服和开放词汇分割验证了BlabberSeg在安全着陆场景中的性能。结果表明,BlabberSeg显著降低了计算成本,在NVIDIA Jetson Orin AGX(64GB)上的速度提高了927.41%(16.78 Hz),而原始CLIPSeg的速度为1.81Hz,实现了实时空中分割,且精度损失可忽略不计(正确分割区域相对于CLIPSeg的比例仅下降2.1%)。BlabberSeg的源代码已开源并可在线获取。
🔬 方法详解
问题定义:论文旨在解决无人机在嵌入式平台上进行实时、开放词汇空中图像分割的问题。现有的视觉-语言模型,如CLIPSeg,虽然在开放词汇分割方面表现出色,但计算量大,难以在资源受限的无人机载平台上实现实时处理。
核心思路:BlabberSeg的核心思路是通过特征复用来减少计算冗余。具体来说,它复用CLIPSeg中prompt的特征和图像模型的特征,避免重复计算,从而显著提升分割速度。这种设计基于观察到CLIPSeg在处理连续帧时,prompt和图像特征的变化相对较小。
技术框架:BlabberSeg的整体框架基于CLIPSeg。它主要包含文本编码器、图像编码器和分割解码器三个模块。BlabberSeg的关键在于对CLIPSeg的优化,使其能够在嵌入式平台上实时运行。具体流程是:首先,输入图像和文本提示;然后,文本编码器提取文本特征,图像编码器提取图像特征;最后,分割解码器将文本和图像特征融合,生成分割结果。为了实现实时性,BlabberSeg会缓存并复用文本和图像特征,避免重复计算。
关键创新:BlabberSeg最关键的创新点在于特征复用机制。与原始CLIPSeg每次都重新计算所有特征不同,BlabberSeg会缓存文本和图像特征,并在后续帧中复用这些特征。只有当文本提示或图像内容发生显著变化时,才会重新计算特征。这种方法极大地减少了计算量,从而实现了实时分割。
关键设计:BlabberSeg的关键设计包括:1) 特征缓存策略:确定何时复用缓存的特征,以及何时重新计算特征。这可能涉及到设定阈值,例如,当图像或文本特征的变化超过一定阈值时,就重新计算特征。2) 优化后的分割解码器:针对嵌入式平台进行优化,减少计算量和内存占用。3) 损失函数:使用与CLIPSeg相同的损失函数,以保证分割精度。
📊 实验亮点
BlabberSeg在NVIDIA Jetson Orin AGX (64GB)上实现了显著的性能提升,分割速度达到16.78 Hz,相比原始CLIPSeg的1.81 Hz提升了927.41%。同时,精度损失非常小,正确分割区域相对于CLIPSeg的比例仅下降了2.1%。这些结果表明,BlabberSeg能够在嵌入式平台上实现实时、高精度的开放词汇空中分割。
🎯 应用场景
BlabberSeg可应用于多种无人机应用场景,例如自主导航、环境监测、灾害救援和农业巡检。通过实时分割空中图像,无人机可以更好地理解周围环境,从而实现更安全、更高效的飞行。例如,在安全着陆场景中,无人机可以利用BlabberSeg识别着陆区域,并进行精确着陆。未来,BlabberSeg可以与其他传感器和算法相结合,实现更高级的无人机智能。
📄 摘要(原文)
Real-time aerial image segmentation plays an important role in the environmental perception of Uncrewed Aerial Vehicles (UAVs). We introduce BlabberSeg, an optimized Vision-Language Model built on CLIPSeg for on-board, real-time processing of aerial images by UAVs. BlabberSeg improves the efficiency of CLIPSeg by reusing prompt and model features, reducing computational overhead while achieving real-time open-vocabulary aerial segmentation. We validated BlabberSeg in a safe landing scenario using the Dynamic Open-Vocabulary Enhanced SafE-Landing with Intelligence (DOVESEI) framework, which uses visual servoing and open-vocabulary segmentation. BlabberSeg reduces computational costs significantly, with a speed increase of 927.41% (16.78 Hz) on a NVIDIA Jetson Orin AGX (64GB) compared with the original CLIPSeg (1.81Hz), achieving real-time aerial segmentation with negligible loss in accuracy (2.1% as the ratio of the correctly segmented area with respect to CLIPSeg). BlabberSeg's source code is open and available online.