OccDirector: Language-Guided Behavior and Interaction Generation in 4D Occupancy Space

作者: Zhuding Liang, Tianyi Yan, Dubing Chen, Jiasen Zheng, Huan Zheng, Cheng-zhong Xu, Yida Wang, Kun Zhan, Jianbing Shen

分类: cs.CV

发布日期: 2026-04-24

💡 一句话要点

OccDirector：提出一种语言驱动的4D occupancy空间行为与交互生成框架，用于自动驾驶仿真。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 4D Occupancy 自动驾驶仿真 语言驱动生成 多智能体交互 视觉语言模型 时空建模 行为编排

📋 核心要点

现有自动驾驶仿真生成框架依赖于几何先验或简单文本，难以生成复杂多智能体交互。
OccDirector提出一种语言驱动的4D occupancy生成框架，将自然语言脚本转化为物理可信的体素动态。
实验表明，OccDirector在生成质量和指令遵循能力上达到SOTA，实现了语言驱动的行为编排。

📝 摘要（中文）

生成式世界模型越来越多地依赖于4D occupancy来实现逼真的自动驾驶仿真。然而，现有的生成框架依赖于严格的几何条件（例如，显式轨迹）或简单的属性级文本，无法协调复杂、连续的多智能体交互。为了解决这种语义-时空差距，我们提出了OccDirector，这是一个开创性的框架，它仅以自然语言为条件生成4D occupancy动态。OccDirector作为一个“场景导演”，将自然语言脚本映射到物理上合理的体素动态，而不需要几何先验。在技术上，它采用了一个VLM驱动的时空MMDiT，配备了历史前缀锚定策略，以确保长时程交互一致性。此外，我们引入了OccInteract-85k，这是一个新颖的数据集，它独特地标注了多层次的语言指令：从静态布局到复杂的多智能体行为，以及一个基于VLM的新型评估基准。大量的实验表明，OccDirector实现了最先进的生成质量和前所未有的指令遵循能力，成功地将范式从外观合成转变为语言驱动的行为编排。

🔬 方法详解

问题定义：现有基于4D occupancy的自动驾驶仿真生成方法，要么依赖于精确的几何轨迹输入，要么只能处理简单的属性级文本描述，无法根据复杂的自然语言指令生成逼真的多智能体交互场景。这限制了其在复杂交通场景建模和自动驾驶算法测试中的应用。

核心思路：OccDirector的核心思路是将自然语言指令作为唯一输入，直接生成4D occupancy动态，从而摆脱对几何先验的依赖。通过学习语言和场景动态之间的映射关系，实现语言驱动的行为编排，使得用户可以通过自然语言来“导演”自动驾驶仿真场景。

技术框架：OccDirector主要包含以下几个模块：1) 语言编码器：使用预训练的视觉语言模型（VLM）将自然语言指令编码为特征向量。2) 时空MMDiT：一个基于多模态扩散Transformer（MMDiT）的时空生成模型，用于根据语言特征生成4D occupancy动态。3) 历史前缀锚定策略：用于保证长时程交互的一致性，避免生成过程中出现不连贯或不合理的行为。

关键创新：OccDirector的关键创新在于：1) 提出了一个完全基于语言驱动的4D occupancy生成框架，无需几何先验。2) 设计了VLM驱动的时空MMDiT，能够有效地学习语言和场景动态之间的映射关系。3) 引入了历史前缀锚定策略，显著提升了长时程交互的一致性。

关键设计：OccDirector使用预训练的CLIP模型作为VLM，将语言指令编码为512维的特征向量。时空MMDiT采用Transformer架构，包含多个自注意力层和交叉注意力层，用于建模体素之间的时空关系和语言特征。历史前缀锚定策略通过在生成过程中引入历史状态信息，来约束当前帧的生成，从而保证长时程交互的一致性。损失函数包括L1损失和对抗损失，用于提高生成质量和真实感。

🖼️ 关键图片

📊 实验亮点

OccDirector在OccInteract-85k数据集上进行了评估，实验结果表明，OccDirector在生成质量和指令遵循能力上均优于现有方法。具体而言，OccDirector在FID指标上取得了显著提升，并且能够生成符合复杂语言指令的交互场景，例如“一辆车超车另一辆车”或“行人穿过马路”。

🎯 应用场景

OccDirector可应用于自动驾驶仿真、交通场景生成、虚拟世界构建等领域。它能够根据自然语言指令生成各种复杂的交通场景，用于自动驾驶算法的测试和验证，加速自动驾驶技术的研发。此外，该技术还可以用于创建逼真的虚拟环境，用于游戏、电影等娱乐产业。

📄 摘要（原文）

Generative world models increasingly rely on 4D occupancy for realistic autonomous driving simulation. However, existing generation frameworks depend on rigid geometric conditions (e.g., explicit trajectories) or simplistic attribute-level text, failing to orchestrate complex, sequential multi-agent interactions. To address this semantic-spatiotemporal gap, we propose OccDirector, a pioneering framework that generates 4D occupancy dynamics conditioned solely on natural language. Operating as a ``scenario director'', OccDirector maps natural language scripts into physically plausible voxel dynamics without requiring geometric priors. Technically, it employs a VLM-driven Spatio-Temporal MMDiT equipped with a history-prefix anchoring strategy to ensure long-horizon interaction consistency. Furthermore, we introduce OccInteract-85k, a novel dataset uniquely annotated with multi-level language instructions: ranging from static layouts to intricate multi-agent behaviors, alongside a novel VLM-based evaluation benchmark. Extensive experiments demonstrate that OccDirector achieves state-of-the-art generation quality and unprecedented instruction-following capabilities, successfully shifting the paradigm from appearance synthesis to language-driven behavior orchestration.

OccDirector: Language-Guided Behavior and Interaction Generation in 4D Occupancy Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理