OccDirector: Language-Guided Behavior and Interaction Generation in 4D Occupancy Space

📄 arXiv: 2604.22240v1 📥 PDF

作者: Zhuding Liang, Tianyi Yan, Dubing Chen, Jiasen Zheng, Huan Zheng, Cheng-zhong Xu, Yida Wang, Kun Zhan, Jianbing Shen

分类: cs.CV

发布日期: 2026-04-24


💡 一句话要点

OccDirector:提出一种语言驱动的4D occupancy空间行为与交互生成框架,用于自动驾驶仿真。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 4D Occupancy 自动驾驶仿真 语言驱动生成 多智能体交互 视觉语言模型 时空建模 行为编排

📋 核心要点

  1. 现有自动驾驶仿真生成框架依赖于几何先验或简单文本,难以生成复杂多智能体交互。
  2. OccDirector提出一种语言驱动的4D occupancy生成框架,将自然语言脚本转化为物理可信的体素动态。
  3. 实验表明,OccDirector在生成质量和指令遵循能力上达到SOTA,实现了语言驱动的行为编排。

📝 摘要(中文)

生成式世界模型越来越多地依赖于4D occupancy来实现逼真的自动驾驶仿真。然而,现有的生成框架依赖于严格的几何条件(例如,显式轨迹)或简单的属性级文本,无法协调复杂、连续的多智能体交互。为了解决这种语义-时空差距,我们提出了OccDirector,这是一个开创性的框架,它仅以自然语言为条件生成4D occupancy动态。OccDirector作为一个“场景导演”,将自然语言脚本映射到物理上合理的体素动态,而不需要几何先验。在技术上,它采用了一个VLM驱动的时空MMDiT,配备了历史前缀锚定策略,以确保长时程交互一致性。此外,我们引入了OccInteract-85k,这是一个新颖的数据集,它独特地标注了多层次的语言指令:从静态布局到复杂的多智能体行为,以及一个基于VLM的新型评估基准。大量的实验表明,OccDirector实现了最先进的生成质量和前所未有的指令遵循能力,成功地将范式从外观合成转变为语言驱动的行为编排。

🔬 方法详解

问题定义:现有基于4D occupancy的自动驾驶仿真生成方法,要么依赖于精确的几何轨迹输入,要么只能处理简单的属性级文本描述,无法根据复杂的自然语言指令生成逼真的多智能体交互场景。这限制了其在复杂交通场景建模和自动驾驶算法测试中的应用。

核心思路:OccDirector的核心思路是将自然语言指令作为唯一输入,直接生成4D occupancy动态,从而摆脱对几何先验的依赖。通过学习语言和场景动态之间的映射关系,实现语言驱动的行为编排,使得用户可以通过自然语言来“导演”自动驾驶仿真场景。

技术框架:OccDirector主要包含以下几个模块:1) 语言编码器:使用预训练的视觉语言模型(VLM)将自然语言指令编码为特征向量。2) 时空MMDiT:一个基于多模态扩散Transformer(MMDiT)的时空生成模型,用于根据语言特征生成4D occupancy动态。3) 历史前缀锚定策略:用于保证长时程交互的一致性,避免生成过程中出现不连贯或不合理的行为。

关键创新:OccDirector的关键创新在于:1) 提出了一个完全基于语言驱动的4D occupancy生成框架,无需几何先验。2) 设计了VLM驱动的时空MMDiT,能够有效地学习语言和场景动态之间的映射关系。3) 引入了历史前缀锚定策略,显著提升了长时程交互的一致性。

关键设计:OccDirector使用预训练的CLIP模型作为VLM,将语言指令编码为512维的特征向量。时空MMDiT采用Transformer架构,包含多个自注意力层和交叉注意力层,用于建模体素之间的时空关系和语言特征。历史前缀锚定策略通过在生成过程中引入历史状态信息,来约束当前帧的生成,从而保证长时程交互的一致性。损失函数包括L1损失和对抗损失,用于提高生成质量和真实感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OccDirector在OccInteract-85k数据集上进行了评估,实验结果表明,OccDirector在生成质量和指令遵循能力上均优于现有方法。具体而言,OccDirector在FID指标上取得了显著提升,并且能够生成符合复杂语言指令的交互场景,例如“一辆车超车另一辆车”或“行人穿过马路”。

🎯 应用场景

OccDirector可应用于自动驾驶仿真、交通场景生成、虚拟世界构建等领域。它能够根据自然语言指令生成各种复杂的交通场景,用于自动驾驶算法的测试和验证,加速自动驾驶技术的研发。此外,该技术还可以用于创建逼真的虚拟环境,用于游戏、电影等娱乐产业。

📄 摘要(原文)

Generative world models increasingly rely on 4D occupancy for realistic autonomous driving simulation. However, existing generation frameworks depend on rigid geometric conditions (e.g., explicit trajectories) or simplistic attribute-level text, failing to orchestrate complex, sequential multi-agent interactions. To address this semantic-spatiotemporal gap, we propose OccDirector, a pioneering framework that generates 4D occupancy dynamics conditioned solely on natural language. Operating as a ``scenario director'', OccDirector maps natural language scripts into physically plausible voxel dynamics without requiring geometric priors. Technically, it employs a VLM-driven Spatio-Temporal MMDiT equipped with a history-prefix anchoring strategy to ensure long-horizon interaction consistency. Furthermore, we introduce OccInteract-85k, a novel dataset uniquely annotated with multi-level language instructions: ranging from static layouts to intricate multi-agent behaviors, alongside a novel VLM-based evaluation benchmark. Extensive experiments demonstrate that OccDirector achieves state-of-the-art generation quality and unprecedented instruction-following capabilities, successfully shifting the paradigm from appearance synthesis to language-driven behavior orchestration.