SMART: Scalable Multi-agent Real-time Motion Generation via Next-token Prediction

作者: Wei Wu, Xiaoxin Feng, Ziyan Gao, Yuheng Kan

分类: cs.RO, cs.CV

发布日期: 2024-05-24 (更新: 2024-11-01)

备注: Accepted by NeurIPS 2024

🔗 代码/项目: GITHUB

💡 一句话要点

SMART：基于Next-token预测的可扩展多智能体实时运动生成

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 自动驾驶 运动生成 Transformer Next-token预测 序列建模

📋 核心要点

现有数据驱动的自动驾驶运动生成方法受限于数据集规模和域差异，难以在实际场景中广泛应用。
SMART将地图和轨迹数据转换为离散token序列，利用Transformer解码器进行next-token预测，学习真实驾驶场景的运动分布。
SMART在WOMD排行榜上排名第一，展示了卓越的推理速度和零样本泛化能力，验证了模型的可扩展性。

📝 摘要（中文）

本文提出了一种名为SMART的自动驾驶运动生成新范式，旨在解决数据驱动方法中数据集规模和数据集域差异的限制。SMART将矢量化地图和智能体轨迹数据建模为离散序列token，并使用仅解码器Transformer架构进行训练，以预测时空序列中的下一个token。这种GPT风格的方法使模型能够学习真实驾驶场景中的运动分布。SMART在Generative Sim Agents挑战赛中取得了最先进的性能，并在Waymo Open Motion Dataset (WOMD)排行榜上排名第一，展示了卓越的推理速度。此外，SMART代表了自动驾驶运动领域的生成模型，展现了零样本泛化能力：仅使用NuPlan数据集进行训练，并在WOMD上进行验证，SMART在Sim Agents挑战赛中取得了0.72的竞争性分数。最后，我们从多个数据集收集了超过10亿个运动token，验证了模型的可扩展性。这些结果表明，SMART初步模拟了可扩展性和零样本泛化这两个重要属性，并初步满足了大规模实时仿真应用的需求。我们已经发布了所有代码，以促进自动驾驶领域运动生成模型的研究。

🔬 方法详解

问题定义：论文旨在解决自动驾驶运动生成任务中，数据驱动方法对大规模数据集的依赖以及不同数据集之间存在的域差异问题。现有方法难以泛化到新的场景，限制了其在实际应用中的潜力。

核心思路：论文的核心思路是将自动驾驶场景中的地图信息和智能体轨迹数据转化为离散的token序列，然后利用Transformer模型学习这些token序列的分布。通过预测序列中的下一个token，模型可以学习到车辆运动的模式和规则，从而生成合理的运动轨迹。这种方法借鉴了自然语言处理中的GPT模型，将运动生成问题转化为序列预测问题。

技术框架：SMART的整体架构是一个基于Transformer的解码器模型。输入包括矢量化的地图信息和智能体轨迹数据，这些数据被编码成离散的token序列。模型通过多层Transformer解码器来学习token之间的关系，并预测下一个token的概率分布。在训练过程中，模型通过最小化预测误差来学习运动模式。在推理过程中，模型可以根据当前的状态生成一系列可能的运动轨迹。

关键创新：SMART的关键创新在于将自动驾驶运动生成问题转化为next-token预测问题，并利用Transformer模型进行学习。这种方法使得模型可以学习到复杂的运动模式，并且具有良好的泛化能力。此外，SMART还通过收集大规模数据集来提高模型的性能。

关键设计：SMART的关键设计包括：1) 将地图和轨迹数据转化为离散的token序列，这使得模型可以处理不同类型的输入数据；2) 使用Transformer解码器模型，这使得模型可以学习到长距离的依赖关系；3) 采用next-token预测任务，这使得模型可以学习到运动的动态特性；4) 使用大规模数据集进行训练，这提高了模型的性能和泛化能力。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

SMART在Generative Sim Agents挑战赛的WOMD排行榜上排名第一，证明了其卓越的性能。此外，SMART仅使用NuPlan数据集进行训练，在WOMD上进行验证，取得了0.72的竞争性分数，展示了其强大的零样本泛化能力。该模型还通过收集超过10亿个运动token，验证了其可扩展性。

🎯 应用场景

SMART的潜在应用领域包括自动驾驶、智能交通系统和机器人导航。该研究的实际价值在于提高自动驾驶系统的安全性和可靠性，并降低开发成本。未来，SMART可以应用于大规模的交通仿真和测试，帮助自动驾驶系统更好地适应复杂的交通环境。

📄 摘要（原文）

Data-driven autonomous driving motion generation tasks are frequently impacted by the limitations of dataset size and the domain gap between datasets, which precludes their extensive application in real-world scenarios. To address this issue, we introduce SMART, a novel autonomous driving motion generation paradigm that models vectorized map and agent trajectory data into discrete sequence tokens. These tokens are then processed through a decoder-only transformer architecture to train for the next token prediction task across spatial-temporal series. This GPT-style method allows the model to learn the motion distribution in real driving scenarios. SMART achieves state-of-the-art performance across most of the metrics on the generative Sim Agents challenge, ranking 1st on the leaderboards of Waymo Open Motion Dataset (WOMD), demonstrating remarkable inference speed. Moreover, SMART represents the generative model in the autonomous driving motion domain, exhibiting zero-shot generalization capabilities: Using only the NuPlan dataset for training and WOMD for validation, SMART achieved a competitive score of 0.72 on the Sim Agents challenge. Lastly, we have collected over 1 billion motion tokens from multiple datasets, validating the model's scalability. These results suggest that SMART has initially emulated two important properties: scalability and zero-shot generalization, and preliminarily meets the needs of large-scale real-time simulation applications. We have released all the code to promote the exploration of models for motion generation in the autonomous driving field. The source code is available at https://github.com/rainmaker22/SMART.

SMART: Scalable Multi-agent Real-time Motion Generation via Next-token Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理