TrackVLA: Embodied Visual Tracking in the Wild
作者: Shaoan Wang, Jiazhao Zhang, Minghan Li, Jiahang Liu, Anqi Li, Kui Wu, Fangwei Zhong, Junzhi Yu, Zhizheng Zhang, He Wang
分类: cs.RO, cs.CV
发布日期: 2025-05-29
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出TrackVLA,解决具身视觉追踪中识别与规划协同问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身视觉追踪 视觉-语言-动作模型 轨迹规划 扩散模型 LLM EVT-Bench 目标识别 机器人导航
📋 核心要点
- 现有具身视觉追踪方法通常将目标识别和轨迹规划模块化分离,忽略了二者之间的协同作用,导致性能受限。
- TrackVLA通过视觉-语言-动作模型,利用共享LLM骨干,将目标识别(语言建模头)和轨迹规划(扩散模型)进行端到端学习。
- 在自建的EVT-Bench数据集上,TrackVLA表现出SOTA性能和强大的泛化能力,并在真实场景中具有良好的鲁棒性和实时性。
📝 摘要(中文)
具身视觉追踪是具身人工智能中的一项基本技能,它使智能体能够仅使用以自我为中心的视觉在动态环境中跟踪特定目标。这项任务本身就具有挑战性,因为它需要在严重遮挡和高场景动态条件下进行准确的目标识别和有效的轨迹规划。现有的方法通常通过模块化分离识别和规划来解决这一挑战。在这项工作中,我们提出了TrackVLA,一个视觉-语言-动作(VLA)模型,它学习对象识别和轨迹规划之间的协同作用。利用共享的LLM骨干,我们采用语言建模头进行识别,并采用基于锚点的扩散模型进行轨迹规划。为了训练TrackVLA,我们构建了一个具身视觉追踪基准(EVT-Bench),并收集了不同难度的识别样本,从而得到了一个包含170万个样本的数据集。通过在合成和真实环境中的大量实验,TrackVLA展示了SOTA性能和强大的泛化能力。它在公共基准测试中以零样本方式显著优于现有方法,同时在真实场景中对高动态和遮挡保持鲁棒性,推理速度为10 FPS。
🔬 方法详解
问题定义:论文旨在解决具身视觉追踪任务中,智能体在动态、遮挡等复杂环境下,如何准确识别目标并规划有效轨迹的问题。现有方法通常将视觉识别和轨迹规划作为独立的模块处理,忽略了二者之间的内在联系,导致整体性能受限,难以应对真实场景的挑战。
核心思路:论文的核心思路是构建一个视觉-语言-动作(VLA)模型TrackVLA,通过共享的LLM骨干,将目标识别和轨迹规划整合到一个统一的框架中进行端到端学习。这种协同学习的方式能够更好地利用视觉信息,提高目标识别的准确性,并生成更有效的轨迹。
技术框架:TrackVLA的整体架构包含三个主要模块:视觉编码器、LLM骨干和两个头部(Head)。视觉编码器负责提取以自我为中心的视觉输入特征。LLM骨干是一个预训练的大型语言模型,用于学习视觉特征和语言指令之间的关系。两个头部分别是:语言建模头,用于目标识别,输出目标的类别或描述;基于锚点的扩散模型,用于轨迹规划,生成智能体的运动指令。整个流程是:输入视觉信息,经过视觉编码器和LLM骨干,分别由语言建模头和扩散模型头输出识别结果和轨迹规划。
关键创新:TrackVLA的关键创新在于其VLA架构,它将视觉、语言和动作信息融合到一个统一的模型中,实现了目标识别和轨迹规划的协同学习。此外,基于锚点的扩散模型能够生成更加平滑和自然的轨迹,提高了智能体的运动效率和鲁棒性。
关键设计:TrackVLA使用预训练的LLM作为骨干网络,并针对具身视觉追踪任务进行了微调。轨迹规划模块采用基于锚点的扩散模型,通过预测相对于当前位置的偏移量来生成轨迹。损失函数包括识别损失和轨迹规划损失,用于优化模型的识别和规划能力。EVT-Bench数据集包含大量不同难度级别的识别样本,用于训练模型的鲁棒性和泛化能力。
🖼️ 关键图片
📊 实验亮点
TrackVLA在合成和真实环境中的实验结果表明,其性能显著优于现有方法。在公共基准测试中,TrackVLA以零样本方式取得了SOTA性能。在真实场景中,TrackVLA对高动态和遮挡具有良好的鲁棒性,并且能够以10 FPS的推理速度实时运行。自建的EVT-Bench数据集包含170万个样本,为具身视觉追踪领域的研究提供了宝贵资源。
🎯 应用场景
TrackVLA在机器人导航、自动驾驶、智能监控等领域具有广泛的应用前景。它可以使机器人在复杂环境中自主跟踪目标,完成各种任务,例如跟随指定人员、追踪可疑物体等。该研究的突破将推动具身智能的发展,使机器人能够更好地理解和适应真实世界。
📄 摘要(原文)
Embodied visual tracking is a fundamental skill in Embodied AI, enabling an agent to follow a specific target in dynamic environments using only egocentric vision. This task is inherently challenging as it requires both accurate target recognition and effective trajectory planning under conditions of severe occlusion and high scene dynamics. Existing approaches typically address this challenge through a modular separation of recognition and planning. In this work, we propose TrackVLA, a Vision-Language-Action (VLA) model that learns the synergy between object recognition and trajectory planning. Leveraging a shared LLM backbone, we employ a language modeling head for recognition and an anchor-based diffusion model for trajectory planning. To train TrackVLA, we construct an Embodied Visual Tracking Benchmark (EVT-Bench) and collect diverse difficulty levels of recognition samples, resulting in a dataset of 1.7 million samples. Through extensive experiments in both synthetic and real-world environments, TrackVLA demonstrates SOTA performance and strong generalizability. It significantly outperforms existing methods on public benchmarks in a zero-shot manner while remaining robust to high dynamics and occlusion in real-world scenarios at 10 FPS inference speed. Our project page is: https://pku-epic.github.io/TrackVLA-web.