Team Xiaomi EV-AD VLA: Caption-Guided Retrieval System for Cross-Modal Drone Navigation -- Technical Report for IROS 2025 RoboSense Challenge Track 4

📄 arXiv: 2510.02728v2 📥 PDF

作者: Lingfeng Zhang, Erjia Xiao, Yuchen Zhang, Haoxiang Fu, Ruibin Hu, Yanbiao Ma, Wenbo Ding, Long Chen, Hangjun Ye, Xiaoshuai Hao

分类: cs.RO

发布日期: 2025-10-03 (更新: 2025-11-06)


💡 一句话要点

提出Caption引导的检索系统,提升跨模态无人机导航中图像检索的精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态检索 无人机导航 视觉-语言模型 图像描述生成 语义对齐

📋 核心要点

  1. 现有跨模态无人机导航方法难以实现文本查询和复杂航拍场景之间的细粒度语义匹配。
  2. 提出Caption引导的检索系统,利用视觉-语言模型生成图像描述,构建视觉内容和自然语言之间的语义桥梁。
  3. 实验结果表明,该方法在关键指标上实现了5%的持续改进,并在RoboSense挑战赛中获得第二名。

📝 摘要(中文)

本文提出了一种用于跨模态无人机导航的Caption引导检索系统(CGRS),旨在解决基于自然语言描述从大规模数据库中高效检索相关图像的难题。该方法针对RoboSense 2025 Track 4挑战赛,专注于在无人机、卫星和地面相机等多平台下,实现鲁棒的、自然语言引导的跨视角图像检索。CGRS通过智能重排序来增强基线模型的粗略排序。首先,利用基线模型获得每个查询最相关的Top 20图像的初始粗略排序。然后,使用视觉-语言模型(VLM)为这些候选图像生成详细的描述,捕捉其视觉内容的丰富语义信息。最后,在多模态相似度计算框架中使用这些生成的描述,对原始文本查询进行细粒度的重排序,从而有效地构建视觉内容和自然语言描述之间的语义桥梁。实验结果表明,该方法在所有关键指标(Recall@1、Recall@5和Recall@10)上均实现了5%的持续改进,并在挑战赛中获得第二名,验证了该语义细化策略在实际机器人导航场景中的价值。

🔬 方法详解

问题定义:论文旨在解决跨模态无人机导航中,如何根据自然语言描述从大规模图像数据库中精确检索相关图像的问题。现有方法,特别是基线模型,在处理复杂航拍场景时,难以实现文本查询和视觉内容之间的细粒度语义匹配,导致检索精度不高。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)生成候选图像的详细描述(Caption),从而将图像的视觉信息转化为文本信息,进而可以通过文本相似度计算来衡量图像与自然语言查询之间的相关性。这种方法相当于在视觉和语言之间建立了一个语义桥梁,使得细粒度的语义匹配成为可能。

技术框架:该方法采用两阶段检索框架。第一阶段,使用基线模型对图像数据库进行粗略检索,得到Top 20的候选图像。第二阶段,使用视觉-语言模型(VLM)为这20张候选图像生成详细的文本描述。然后,将原始的自然语言查询和生成的图像描述输入到多模态相似度计算框架中,计算它们之间的相似度,并根据相似度对候选图像进行重排序。

关键创新:该方法最重要的创新点在于利用视觉-语言模型生成图像描述,从而将视觉信息转化为文本信息,实现了视觉内容和自然语言描述之间的语义对齐。这种方法避免了直接在视觉特征空间进行匹配的困难,提高了检索的精度和鲁棒性。与现有方法相比,该方法能够更好地捕捉图像的细粒度语义信息,从而实现更精确的检索。

关键设计:该方法的关键设计包括:1) 选择合适的视觉-语言模型(VLM),以生成高质量的图像描述;2) 设计有效的多模态相似度计算框架,以准确衡量文本查询和图像描述之间的相似度;3) 确定合适的Top K值(例如,Top 20),以在计算效率和检索精度之间取得平衡。论文中没有明确提及具体的参数设置、损失函数或网络结构等技术细节,这些可能是根据具体任务和数据集进行调整的(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在RoboSense 2025 Track 4挑战赛中,相较于基线模型,在Recall@1、Recall@5和Recall@10等关键指标上均实现了5%的持续改进。该方法最终在挑战赛中获得第二名,验证了其在实际机器人导航场景中的有效性。

🎯 应用场景

该研究成果可应用于无人机自主导航、智能安防、遥感图像分析等领域。通过自然语言指令,无人机可以快速定位目标区域,提高任务执行效率。在智能安防领域,可以根据描述快速检索监控视频中的可疑目标。在遥感图像分析中,可以根据描述快速检索特定地物,辅助地理信息分析。

📄 摘要(原文)

Cross-modal drone navigation remains a challenging task in robotics, requiring efficient retrieval of relevant images from large-scale databases based on natural language descriptions. The RoboSense 2025 Track 4 challenge addresses this challenge, focusing on robust, natural language-guided cross-view image retrieval across multiple platforms (drones, satellites, and ground cameras). Current baseline methods, while effective for initial retrieval, often struggle to achieve fine-grained semantic matching between text queries and visual content, especially in complex aerial scenes. To address this challenge, we propose a two-stage retrieval refinement method: Caption-Guided Retrieval System (CGRS) that enhances the baseline coarse ranking through intelligent reranking. Our method first leverages a baseline model to obtain an initial coarse ranking of the top 20 most relevant images for each query. We then use Vision-Language-Model (VLM) to generate detailed captions for these candidate images, capturing rich semantic descriptions of their visual content. These generated captions are then used in a multimodal similarity computation framework to perform fine-grained reranking of the original text query, effectively building a semantic bridge between the visual content and natural language descriptions. Our approach significantly improves upon the baseline, achieving a consistent 5\% improvement across all key metrics (Recall@1, Recall@5, and Recall@10). Our approach win TOP-2 in the challenge, demonstrating the practical value of our semantic refinement strategy in real-world robotic navigation scenarios.