CosFly-Track: A Large-Scale Multi-Modal Dataset for UAV Visual Tracking via Multi-Constraint Trajectory Optimization
作者: Xiangyue Wang, Hanxuan Chen, Songsheng Cheng, Ruilong Ren, Jie Zheng, Shuai Yuan, Tianle Zeng, Hanzhong Guo, Kangli Wang, Ji Pei
分类: cs.RO
发布日期: 2026-05-18
🔗 代码/项目: HUGGINGFACE | HUGGINGFACE
💡 一句话要点
CosFly-Track:提出大规模无人机视觉跟踪多模态数据集,通过多约束轨迹优化实现。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无人机视觉跟踪 多模态数据集 轨迹优化 视觉-语言导航 多约束优化
📋 核心要点
- 现有空中视觉-语言导航数据集主要关注静态目标导航,缺乏针对动态目标跟踪的专用训练数据。
- 论文提出CosFlyTrack数据集,并设计MuCO多约束优化器生成高质量无人机轨迹,保证目标可见性、避碰等约束。
- 实验表明,在视觉-语言模型上微调CosFlyTrack数据集,跟踪性能显著提升,SR@1米指标提升53-69个百分点。
📝 摘要(中文)
现有的空中视觉-语言导航(VLN)数据集发展迅速,但主要关注面向静态目标的导航,而无人机视觉跟踪——持续跟踪移动目标并保持可见性——缺乏专门的训练数据。我们推出了CosFlyTrack,这是一个大规模的多模态数据集和可扩展的生成流程,用于城市环境中的无人机视觉跟踪。该数据集提供了约12,000条专家和扰动无人机轨迹,由6,000条行人路径生成,包含240万个时间步(约334小时),具有七个对齐的数据通道:RGB、度量深度、语义分割、六自由度无人机姿态、带有可见性标志的目标状态、双语(中-英)指令和轨迹对元数据。为了生成高质量的专家轨迹,我们开发了MuCO,一种多约束优化器,它直接在连续三维空间中进行规划,并使用BVH加速碰撞和可见性查询,共同强制执行目标可见性、视点质量、避碰、平滑性和运动学可行性,避免了基于网格的规划器的离散化伪影和事后平滑。在七个视觉-语言模型上进行的微调实验表明,CosFlyTrack将跟踪性能提高到78.3%到95.6%的SR@1米,比零样本基线提高了53到69个百分点,支持该数据集作为动态目标跟踪代理的训练资源。该数据集可在https://huggingface.co/datasets/AutelRobotics/CosFly公开获取;评估脚本和预训练检查点托管在https://huggingface.co/AutelRobotics/CosFly-Track。
🔬 方法详解
问题定义:现有无人机视觉跟踪缺乏大规模、高质量的训练数据,尤其是在复杂城市环境中跟踪移动目标。现有的空中视觉-语言导航数据集主要关注静态目标导航,无法满足动态目标跟踪的需求。此外,基于网格的轨迹规划方法存在离散化伪影和需要事后平滑的问题。
核心思路:论文的核心思路是构建一个大规模多模态数据集CosFlyTrack,并设计一个多约束优化器MuCO,用于生成高质量的无人机跟踪轨迹。通过在连续空间中直接进行轨迹优化,并联合考虑目标可见性、视点质量、避碰、平滑性和运动学可行性等约束,从而避免了传统方法的局限性。
技术框架:CosFlyTrack数据集的生成流程主要包括以下几个阶段:首先,收集行人的运动轨迹数据。然后,利用MuCO优化器,根据行人的轨迹生成无人机的跟踪轨迹。在生成轨迹的过程中,MuCO会考虑多个约束条件,例如目标可见性、视点质量、避碰、平滑性和运动学可行性。最后,将生成的无人机轨迹与RGB图像、深度图像、语义分割图像、无人机姿态、目标状态、双语指令等多种模态的数据进行对齐,形成最终的数据集。
关键创新:论文的关键创新在于提出了MuCO多约束优化器,它能够在连续三维空间中直接进行轨迹规划,并联合优化多个约束条件。与传统的基于网格的规划器相比,MuCO能够避免离散化伪影和事后平滑的问题,生成更加平滑、自然的无人机轨迹。此外,CosFlyTrack数据集本身也是一个重要的创新,它为无人机视觉跟踪领域提供了大规模、高质量的训练数据。
关键设计:MuCO优化器采用BVH加速碰撞和可见性查询,以提高计算效率。优化目标函数包含多个项,分别对应于目标可见性、视点质量、避碰、平滑性和运动学可行性等约束。每个约束项都具有相应的权重,用于调整不同约束条件的重要性。论文还设计了扰动策略,用于生成更多样化的训练数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在CosFlyTrack数据集上微调视觉-语言模型,能够显著提高无人机视觉跟踪的性能。具体来说,在七个视觉-语言模型上进行的微调实验表明,CosFlyTrack将跟踪性能提高到78.3%到95.6%的SR@1米,比零样本基线提高了53到69个百分点。这充分证明了CosFlyTrack数据集的有效性和价值。
🎯 应用场景
该研究成果可应用于无人机自主跟踪、智能安防、物流配送、灾害救援等领域。通过利用CosFlyTrack数据集训练的无人机,可以实现对移动目标的稳定、可靠跟踪,提高无人机在复杂环境中的适应性和智能化水平,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Recent aerial vision-language navigation (VLN) datasets have grown rapidly, but they primarily address goal-oriented navigation to static destinations, leaving UAV visual tracking -- continuously following a moving target while maintaining visibility -- largely without dedicated training data. We introduce CosFlyTrack, a large-scale multi-modal dataset and scalable generation pipeline for UAV visual tracking in urban environments. The dataset provides approximately 12,000 expert and perturbed UAV trajectories generated from 6,000 pedestrian paths, comprising 2.4 million timesteps (approximately 334 hours) with seven aligned data channels: RGB, metric depth, semantic segmentation, six-degree-of-freedom drone pose, target state with visibility flag, bilingual (Chinese-English) instructions, and trajectory-pair metadata. To generate high-quality expert trajectories, we develop MuCO, a multi-constraint optimizer that plans directly in continuous three-dimensional space with BVH-accelerated collision and visibility queries, jointly enforcing target visibility, viewpoint quality, collision avoidance, smoothness, and kinematic feasibility, avoiding the discretization artifacts and post-hoc smoothing of grid-based planners. Fine-tuning experiments on seven vision-language models show that CosFlyTrack improves tracking performance to 78.3 to 95.6 percent SR@1 meter, a 53 to 69 percentage point gain over zero-shot baselines, supporting the dataset as a training resource for dynamic target-following agents. The dataset is publicly available at https://huggingface.co/datasets/AutelRobotics/CosFly; evaluation scripts and pre-trained checkpoints are hosted at https://huggingface.co/AutelRobotics/CosFly-Track.