NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar
作者: Runwei Guan, Jianan Liu, Liye Jia, Haocheng Zhao, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Eng Gee Lim, Jeremy Smith, Yutao Yue
分类: cs.CV, cs.RO
发布日期: 2024-08-30 (更新: 2025-02-12)
备注: 8 pages, 6 figures
💡 一句话要点
NanoMVG:面向USV的低功耗多任务视觉定位模型,融合提示引导的相机和4D毫米波雷达
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉定位 多模态融合 无人水面艇 低功耗 毫米波雷达 自然语言处理 具身感知
📋 核心要点
- 现有的基于多传感器融合的视觉定位模型复杂度高,难以部署在对功耗敏感的无人水面艇(USV)上。
- NanoMVG通过融合相机和4D毫米波雷达数据,并利用提示引导,实现了低功耗的多任务视觉定位。
- 实验表明,NanoMVG在WaterVG数据集上表现出色,尤其在恶劣环境下,并具有极低的功耗。
📝 摘要(中文)
本文提出了一种名为NanoMVG的低功耗多任务模型,专为水路环境下的具身感知而设计,旨在引导相机和4D毫米波雷达通过自然语言定位特定物体。NanoMVG能够同时执行框级别和掩码级别的视觉定位任务。与其他视觉定位模型相比,NanoMVG在WaterVG数据集上取得了极具竞争力的性能,尤其是在恶劣环境中,并且具有超低的功耗,从而保证了长续航能力,适用于无人水面艇(USV)的实际部署。
🔬 方法详解
问题定义:论文旨在解决无人水面艇(USV)在水路环境中进行视觉定位时,现有基于深度学习的多传感器融合模型功耗过高,难以实际部署的问题。现有方法通常计算复杂度高,难以在资源受限的USV平台上运行,限制了其在实际场景中的应用。
核心思路:论文的核心思路是设计一个低功耗、多任务的视觉定位模型NanoMVG,该模型能够同时利用相机图像和4D毫米波雷达数据,并通过自然语言提示引导,实现对水面物体的精确定位。通过模型结构的优化和多任务学习,降低模型的计算复杂度,从而降低功耗。
技术框架:NanoMVG模型接收相机图像、4D毫米波雷达数据和自然语言提示作为输入。首先,使用预训练的视觉和雷达特征提取器提取图像和雷达数据的特征。然后,将提取的特征与自然语言提示进行融合,通过一个轻量级的多模态融合模块进行信息交互。最后,模型输出框级别和掩码级别的定位结果,实现多任务学习。
关键创新:NanoMVG的关键创新在于其低功耗的设计和多任务学习的能力。通过对模型结构的精简和优化,以及多任务学习的策略,NanoMVG在保证定位精度的同时,显著降低了功耗,使其能够部署在资源受限的USV平台上。此外,提示引导的方式使得模型能够根据自然语言指令灵活地定位目标。
关键设计:NanoMVG采用了轻量级的网络结构,例如使用MobileNet等作为视觉特征提取器。损失函数方面,采用了框回归损失和分割损失的加权和,以平衡框级别和掩码级别定位任务的性能。此外,论文还设计了一种有效的多模态融合模块,用于融合视觉、雷达和语言特征。
🖼️ 关键图片
📊 实验亮点
NanoMVG在WaterVG数据集上取得了极具竞争力的性能,尤其是在恶劣环境中。更重要的是,NanoMVG实现了超低的功耗,使其能够部署在资源受限的USV平台上。具体的性能数据和与其他基线的对比结果在论文中进行了详细的展示,证明了NanoMVG在功耗和精度上的优势。
🎯 应用场景
NanoMVG可应用于无人水面艇(USV)在水路环境中的自主导航、目标检测与跟踪、环境感知等任务。其低功耗特性使其能够支持USV的长时间自主作业,在水文监测、水域巡逻、搜救等领域具有广泛的应用前景。未来,该技术有望进一步扩展到其他资源受限的移动平台,例如无人机和移动机器人。
📄 摘要(原文)
Recently, visual grounding and multi-sensors setting have been incorporated into perception system for terrestrial autonomous driving systems and Unmanned Surface Vehicles (USVs), yet the high complexity of modern learning-based visual grounding model using multi-sensors prevents such model to be deployed on USVs in the real-life. To this end, we design a low-power multi-task model named NanoMVG for waterway embodied perception, guiding both camera and 4D millimeter-wave radar to locate specific object(s) through natural language. NanoMVG can perform both box-level and mask-level visual grounding tasks simultaneously. Compared to other visual grounding models, NanoMVG achieves highly competitive performance on the WaterVG dataset, particularly in harsh environments and boasts ultra-low power consumption for long endurance.