SLARM: Streaming and Language-Aligned Reconstruction Model for Dynamic Scenes
作者: Zhicheng Qiu, Jiarui Meng, Tong-an Luo, Yican Huang, Xuan Feng, Xuanfu Li, ZHan Xu
分类: cs.CV
发布日期: 2026-03-24
💡 一句话要点
SLARM:用于动态场景的流式语言对齐重建模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 语义理解 流式推理 高阶运动建模 语言对齐 可微渲染 因果注意力
📋 核心要点
- 现有动态场景重建方法难以捕捉复杂运动,且常常缺乏有效的语义信息融合。
- SLARM通过高阶运动建模和语言对齐的语义特征蒸馏,实现了更精确的动态场景重建和语义理解。
- 实验表明,SLARM在动态估计、渲染质量和场景解析方面均优于现有方法,性能提升显著。
📝 摘要(中文)
我们提出了SLARM,一个前馈模型,它统一了动态场景重建、语义理解和实时流式推理。SLARM通过高阶运动建模捕捉复杂、非均匀的运动,仅在可微渲染上进行训练,无需任何光流监督。此外,SLARM从LSeg中提取语义特征,以获得语言对齐的表示。这种设计实现了通过自然语言进行语义查询,并且语义和几何之间的紧密耦合进一步提高了动态重建的准确性和鲁棒性。此外,SLARM使用基于窗口的因果注意力处理图像序列,实现稳定、低延迟的流式推理,而不会累积内存成本。在这个统一的框架内,SLARM在动态估计、渲染质量和场景解析方面取得了最先进的结果,与现有方法相比,运动精度提高了21%,重建PSNR提高了1.6 dB,分割mIoU提高了20%。
🔬 方法详解
问题定义:现有动态场景重建方法在处理复杂、非均匀运动时存在困难,并且通常缺乏与语义信息的有效结合。这导致重建精度和鲁棒性受到限制,难以支持基于自然语言的语义查询等高级应用。
核心思路:SLARM的核心思路是将动态场景重建、语义理解和实时流式推理统一到一个前馈模型中。通过高阶运动建模捕捉复杂运动,利用语言对齐的语义特征增强重建的准确性和鲁棒性,并采用基于窗口的因果注意力实现低延迟的流式推理。
技术框架:SLARM的整体框架包括以下几个主要模块:1) 高阶运动建模模块,用于捕捉场景中的复杂运动;2) 语义特征蒸馏模块,从LSeg模型中提取语言对齐的语义特征;3) 基于窗口的因果注意力模块,用于处理图像序列并实现流式推理;4) 可微渲染模块,用于训练整个模型。
关键创新:SLARM的关键创新在于:1) 提出了一种高阶运动建模方法,能够更准确地捕捉复杂、非均匀的运动;2) 将语义信息与几何信息紧密耦合,通过语言对齐的语义特征增强了重建的准确性和鲁棒性;3) 采用基于窗口的因果注意力机制,实现了低延迟的流式推理,避免了内存累积。
关键设计:SLARM的关键设计包括:1) 使用高阶贝塞尔曲线来表示场景中的运动轨迹;2) 通过可微渲染损失函数来训练整个模型,无需任何光流监督;3) 使用LSeg模型提取的语义特征作为重建的先验信息;4) 采用窗口大小为T的因果注意力机制,只关注过去T帧的信息。
🖼️ 关键图片
📊 实验亮点
SLARM在多个动态场景重建和语义理解任务上取得了最先进的结果。具体而言,SLARM在运动精度上比现有方法提高了21%,重建PSNR提高了1.6 dB,分割mIoU提高了20%。这些结果表明,SLARM在动态场景重建和语义理解方面具有显著的优势。
🎯 应用场景
SLARM具有广泛的应用前景,例如:增强现实(AR)和虚拟现实(VR)应用,可以实现更逼真的动态场景重建和交互;自动驾驶领域,可以用于感知周围环境并进行语义理解;机器人导航,可以帮助机器人更好地理解和导航复杂环境;以及视频编辑和特效制作等。
📄 摘要(原文)
We propose SLARM, a feed-forward model that unifies dynamic scene reconstruction, semantic understanding, and real-time streaming inference. SLARM captures complex, non-uniform motion through higher-order motion modeling, trained solely on differentiable renderings without any flow supervision. Besides, SLARM distills semantic features from LSeg to obtain language-aligned representations. This design enables semantic querying via natural language, and the tight coupling between semantics and geometry further enhances the accuracy and robustness of dynamic reconstruction. Moreover, SLARM processes image sequences using window-based causal attention, achieving stable, low-latency streaming inference without accumulating memory cost. Within this unified framework, SLARM achieves state-of-the-art results in dynamic estimation, rendering quality, and scene parsing, improving motion accuracy by 21%, reconstruction PSNR by 1.6 dB, and segmentation mIoU by 20% over existing methods.