Network-Efficient World Model Token Streaming

作者: Shatadal Mishra, Ahmadreza Moradipari, Nejib Ammar

分类: cs.RO

发布日期: 2026-05-11

备注: Accepted at IEEE VNC 2026

💡 一句话要点

提出一种基于自适应关键帧与增量更新的离散世界模型状态流式传输算法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 离散表征 流式传输 自动驾驶 车路协同 VQ-U-Net 网络优化

📋 核心要点

核心问题：在带宽受限及存在丢包的车辆网络环境下，如何高效同步生成式世界模型的离散潜在状态，以维持下游任务的预测精度。
方法要点：提出一种在线、无标签的流式传输协议，结合基于余弦距离的增量更新优先级排序与基于汉明漂移的自适应关键帧触发机制。
实验效果：在0.024 Mb/s和0.036 Mb/s带宽下，该方法显著降低了嵌入失真，并在10%丢包率下表现出优于周期性基线的鲁棒性，提升了预测困惑度。

📝 摘要（中文）

生成式驾驶世界模型依赖于紧凑的潜在状态表示，这些表示必须在分布式计算节点与联网车辆之间进行高效传输与同步。本文研究了离散世界模型状态的网络高效流式传输问题。研究采用步长为16的VQ-U-Net分词器（码本大小8,192），将288x512的帧映射为18x32的Token ID网格。在严格的每消息载荷预算与丢包环境下，作者提出了一种完全在线、无需标签的算法。该算法通过码本嵌入空间中的余弦距离优先处理增量更新，并利用汉明漂移阈值自适应触发关键帧。实验表明，该算法在匹配比特率下显著优于周期性关键帧方案，并在丢包场景下表现出更强的鲁棒性。此外，通过轻量级下一Token预测器的困惑度评估，验证了该方法在提升下游世界模型动态预测效用方面的实际价值。

🔬 方法详解

问题定义：论文旨在解决生成式驾驶世界模型在分布式边缘计算与车辆端同步时，由于带宽限制和网络丢包导致的潜在状态传输效率低下及模型性能退化问题。

核心思路：通过引入一种自适应的流式传输协议，动态权衡关键帧（Keyframe）与增量更新（Delta）的发送策略，以在有限的比特预算内最大化状态重建的保真度。

技术框架：系统基于VQ-U-Net分词器，将图像帧压缩为离散Token序列。传输层采用在线算法，实时计算当前帧与上一帧在码本嵌入空间中的差异，并根据预设的汉明漂移阈值决定是否发送关键帧，否则仅发送高优先级的增量更新。

关键创新：核心创新在于无需额外标签的自适应机制，通过余弦距离度量嵌入空间的变化，实现了对信息增量的高效筛选，有效缓解了网络抖动和丢包带来的状态漂移。

关键设计：关键参数包括码本大小（8,192）、Token网格（18x32）、以及用于触发关键帧的汉明漂移阈值。系统在固定载荷预算（如200-400字节）下运行，通过优化传输策略提升了下一Token预测器的困惑度指标。

🖼️ 关键图片

📊 实验亮点

实验结果显示，在0.024 Mb/s带宽下，该方法将动态嵌入失真从0.0712降低至0.0661（提升7.2%）；在10%丢包率的极端条件下，失真度优于周期性基线。此外，下游任务的困惑度指标在0.024 Mb/s下提升了6.3%，证明了该方法在带宽受限场景下对模型动态预测效用的显著贡献。

🎯 应用场景

该研究主要应用于自动驾驶领域的分布式感知与决策系统。通过优化世界模型状态的流式传输，能够显著降低车路协同（V2X）场景下的带宽需求，提升车辆在弱网环境下的环境预测能力，为实时路径规划与安全预警提供更可靠的潜在状态同步支持。

📄 摘要（原文）

Generative driving world models rely on compact latent state representations that must be efficiently transmitted and synchronized across distributed compute and connected vehicles. We study network-efficient streaming of a discrete world model state, where a stride-16 VQ-U-Net tokenizer (codebook size 8,192) maps each 288x512 frame to an 18x32 grid of token IDs (576 tokens/frame), equivalent to 936 bytes/frame under fixed-length coding. We consider a keyframe--delta protocol under strict per-message payload budgets and packet loss, and propose a fully online, label-free algorithm that prioritizes delta updates via cosine distance in codebook embedding space and triggers keyframes adaptively using a Hamming-drift threshold. The adaptive algorithm consistently improves the rate distortion frontier over periodic keyframes at matched bitrates: at 0.024 Mb/s (200-byte budget) dynamic-only embedding distortion drops from 0.0712 to 0.0661 (7.2\%), and at 0.036 Mb/s (400-byte budget) from 0.0427 to 0.0407 (4.8\%). Under 10\% delta packet loss at 200 bytes, dynamic-only distortion is 0.0757 versus 0.0789 for a matched periodic baseline. To connect state fidelity to world model usefulness, we train a lightweight next-token predictor and evaluate perplexity conditioned on streamed receiver states: at 0.024 Mb/s, dynamic-position perplexity improves from 206.0 to 193.1 (6.3\%), and at 0.036 Mb/s from 158.9 to 155.6 (2.1\%). These results support discrete token-state streaming as a practical systems layer for bandwidth-aware synchronization and improved downstream token-dynamics utility under vehicular networking constraints.

Network-Efficient World Model Token Streaming

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理