CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

作者: Youzhi Liu, Li Gao, Liu Liu, Mingyang Lv, Yang Cai

分类: cs.AI

发布日期: 2026-03-24

🔗 代码/项目: GITHUB

💡 一句话要点

提出CoMaTrack：基于竞争博弈的多智能体视觉-语言-动作跟踪框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身视觉跟踪 多智能体强化学习 竞争博弈 视觉-语言-动作模型 对抗训练

📋 核心要点

现有具身视觉跟踪方法依赖单智能体模仿学习，存在专家数据成本高和泛化性不足的挑战。
CoMaTrack采用竞争博弈的多智能体强化学习，在动态对抗环境中训练，提升自适应规划和抗干扰能力。
CoMaTrack在标准基准和新基准CoMaTrack-Bench上均取得SOTA，3B VLM超越了7B模型的单智能体方法。

📝 摘要（中文）

具身视觉跟踪(EVT)是具身智能中的核心动态任务，要求智能体精确地跟随语言指定的对象。现有方法主要依赖于单智能体模仿学习，面临专家数据成本高昂以及静态训练环境导致泛化能力受限的问题。受竞争驱动能力进化的启发，我们提出了CoMaTrack，一个竞争博弈的多智能体强化学习框架，该框架在具有竞争性子任务的动态对抗环境中训练智能体，从而产生更强的自适应规划和抗干扰策略。我们进一步推出了CoMaTrack-Bench，这是第一个用于竞争性EVT的基准，包含跟踪器和自适应对手之间的博弈场景，涵盖了不同的环境和指令，从而能够在主动对抗交互下进行标准化鲁棒性评估。实验表明，CoMaTrack在标准基准和CoMaTrack-Bench上均取得了最先进的结果。值得注意的是，一个使用我们的框架训练的3B VLM在具有挑战性的EVT-Bench上超越了之前基于7B模型的单智能体模仿学习方法，在STT中达到92.1%，在DT中达到74.2%，在AT中达到57.5%。基准代码将在https://github.com/wlqcode/CoMaTrack-Bench上提供。

🔬 方法详解

问题定义：论文旨在解决具身视觉跟踪(EVT)任务中，现有单智能体模仿学习方法泛化能力不足的问题。这些方法依赖于昂贵的专家数据，并且在静态训练环境中训练，难以适应真实世界中复杂多变的环境和干扰。因此，如何提升智能体在动态对抗环境下的自适应性和鲁棒性是本文要解决的核心问题。

核心思路：论文的核心思路是借鉴竞争驱动能力进化的思想，构建一个多智能体竞争博弈框架。通过引入对抗性智能体，迫使跟踪智能体学习更强的自适应规划和抗干扰策略。这种竞争性的训练方式能够模拟真实世界中可能遇到的各种干扰和挑战，从而提升智能体的泛化能力。

技术框架：CoMaTrack框架包含一个跟踪智能体和一个或多个对抗智能体。跟踪智能体的目标是根据语言指令跟踪目标对象，而对抗智能体的目标是干扰跟踪智能体的跟踪过程。整个训练过程采用强化学习的方式，跟踪智能体和对抗智能体通过相互博弈不断提升自身的能力。框架还引入了CoMaTrack-Bench，用于评估智能体在竞争环境下的性能。

关键创新：论文的关键创新在于将多智能体竞争博弈的思想引入到具身视觉跟踪任务中。通过构建动态对抗环境，能够更有效地训练智能体，提升其自适应性和鲁棒性。此外，CoMaTrack-Bench的提出为竞争性EVT提供了一个标准化的评估平台。

关键设计：在训练过程中，论文设计了多种竞争性子任务，例如遮挡目标、引入干扰物等，以模拟真实世界中可能遇到的各种干扰。损失函数的设计也考虑了跟踪的准确性和对抗的强度，以平衡跟踪智能体和对抗智能体的训练。具体网络结构使用了视觉-语言-动作模型(VLM)，并针对跟踪任务进行了优化。

🖼️ 关键图片

📊 实验亮点

CoMaTrack在标准EVT基准和CoMaTrack-Bench上均取得了SOTA结果。尤其值得注意的是，使用CoMaTrack框架训练的3B VLM在CoMaTrack-Bench上超越了之前基于7B模型的单智能体模仿学习方法，在STT中达到92.1%，在DT中达到74.2%，在AT中达到57.5%。这表明CoMaTrack能够有效地提升智能体的性能，并且具有良好的可扩展性。

🎯 应用场景

CoMaTrack的研究成果可应用于机器人导航、自动驾驶、智能监控等领域。通过提升智能体在复杂环境下的跟踪能力，可以实现更安全、更可靠的自主系统。例如，在自动驾驶中，可以利用CoMaTrack训练的智能体跟踪行人或车辆，从而避免交通事故。在智能监控中，可以用于跟踪可疑目标，提高监控效率。

📄 摘要（原文）

Embodied Visual Tracking (EVT), a core dynamic task in embodied intelligence, requires an agent to precisely follow a language-specified target. Yet most existing methods rely on single-agent imitation learning, suffering from costly expert data and limited generalization due to static training environments. Inspired by competition-driven capability evolution, we propose CoMaTrack, a competitive game-theoretic multi-agent reinforcement learning framework that trains agents in a dynamic adversarial setting with competitive subtasks, yielding stronger adaptive planning and interference-resilient strategies. We further introduce CoMaTrack-Bench, the first benchmark for competitive EVT, featuring game scenarios between a tracker and adaptive opponents across diverse environments and instructions, enabling standardized robustness evaluation under active adversarial interactions. Experiments show that CoMaTrack achieves state-of-the-art results on both standard benchmarks and CoMaTrack-Bench. Notably, a 3B VLM trained with our framework surpasses previous single-agent imitation learning methods based on 7B models on the challenging EVT-Bench, achieving 92.1% in STT, 74.2% in DT, and 57.5% in AT. The benchmark code will be available at https://github.com/wlqcode/CoMaTrack-Bench

CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理