LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation

📄 arXiv: 2504.11521v2 📥 PDF

作者: Wei-Jer Chang, Wei Zhan, Masayoshi Tomizuka, Manmohan Chandraker, Francesco Pittaluga

分类: cs.LG, cs.RO

发布日期: 2025-04-15 (更新: 2025-10-20)

备注: ICCV 2025


💡 一句话要点

提出LangTraj以解决自主车辆测试中的语言条件模拟问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言条件模拟 扩散模型 自主车辆 交通场景 数据集构建 闭环训练 安全关键模拟

📋 核心要点

  1. 现有方法在自主车辆测试中缺乏灵活的语言条件控制,限制了模拟的真实感和可扩展性。
  2. LangTraj通过语言条件的场景扩散模型,提供了对交通场景中代理行为的直观控制,增强了模拟的灵活性。
  3. 在Waymo开放运动数据集上验证,LangTraj在真实性和语言可控性方面表现优异,显著提升了安全关键模拟的效果。

📝 摘要(中文)

评估自主车辆的可控性能够在反事实或结构化环境中进行可扩展测试,从而提高效率和安全性。我们介绍了LangTraj,这是一种语言条件的场景扩散模型,能够模拟交通场景中所有代理的联合行为。通过对自然语言输入的条件化,LangTraj提供了灵活直观的交互行为控制,生成细致且真实的场景。与依赖于特定领域指导函数的先前方法不同,LangTraj在训练过程中融入语言条件,促进了更直观的交通模拟控制。我们提出了一种新颖的闭环训练策略,专门针对扩散模型进行设计,以增强闭环模拟中的稳定性和真实性。为了支持语言条件模拟,我们开发了Inter-Drive,这是一个大规模数据集,具有多样化和互动标签,用于训练语言条件的扩散模型。经过Waymo开放运动数据集的验证,LangTraj在真实性、语言可控性和语言条件的安全关键模拟方面表现出色,为灵活和可扩展的自主车辆测试建立了新范式。

🔬 方法详解

问题定义:本论文旨在解决自主车辆测试中缺乏灵活的语言条件模拟的问题。现有方法往往依赖于特定领域的指导函数,导致模拟的局限性和不够直观的控制体验。

核心思路:LangTraj的核心思路是将语言条件融入到扩散模型的训练中,通过自然语言输入来控制交通场景中的代理行为,从而实现更直观和灵活的模拟。

技术框架:整体架构包括语言条件输入模块、扩散模型训练模块和闭环模拟模块。通过这些模块的协同工作,LangTraj能够生成丰富的交通场景并进行有效的行为控制。

关键创新:LangTraj的主要创新在于其闭环训练策略,专门设计以增强扩散模型在模拟中的稳定性和真实性。这一策略与传统方法的显著区别在于其对语言条件的深度整合。

关键设计:在模型设计中,采用了特定的损失函数来优化语言条件的表现,并在网络结构上进行了调整,以支持多样化的代理行为和交互。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LangTraj在Waymo开放运动数据集上的实验结果显示,其在真实性和语言可控性方面均优于现有基线,尤其在安全关键模拟中表现出显著提升,具体性能数据未提供,但整体效果显著。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶车辆的测试与验证、智能交通系统的设计以及人机交互的优化。通过提供灵活的语言条件控制,LangTraj能够在多种交通场景中进行有效的模拟,提升安全性和效率,具有重要的实际价值和未来影响。

📄 摘要(原文)

Evaluating autonomous vehicles with controllability enables scalable testing in counterfactual or structured settings, enhancing both efficiency and safety. We introduce LangTraj, a language-conditioned scene-diffusion model that simulates the joint behavior of all agents in traffic scenarios. By conditioning on natural language inputs, LangTraj provides flexible and intuitive control over interactive behaviors, generating nuanced and realistic scenarios. Unlike prior approaches that depend on domain-specific guidance functions, LangTraj incorporates language conditioning during training, facilitating more intuitive traffic simulation control. We propose a novel closed-loop training strategy for diffusion models, explicitly tailored to enhance stability and realism during closed-loop simulation. To support language-conditioned simulation, we develop Inter-Drive, a large-scale dataset with diverse and interactive labels for training language-conditioned diffusion models. Our dataset is built upon a scalable pipeline for annotating agent-agent interactions and single-agent behaviors, ensuring rich and varied supervision. Validated on the Waymo Open Motion Dataset, LangTraj demonstrates strong performance in realism, language controllability, and language-conditioned safety-critical simulation, establishing a new paradigm for flexible and scalable autonomous vehicle testing. Project Website: https://langtraj.github.io/