Stream3D: Sequential Multi-View 3D Generation via Evidential Memory
作者: Kaichen Zhou, Zeyang Bai, Xinhai Chang, Mengyu Wang, Paul Liang, Fangneng Zhan
分类: cs.CV
发布日期: 2026-05-20
备注: Multi-view 3D Generation, Streaming 3D Generation
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Stream3D,通过证据记忆实现单目视频流的连续多视角3D生成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D生成 视频流 时序一致性 证据记忆 单目视觉
📋 核心要点
- 现有视角条件3D生成器在处理单帧图像时表现出色,但直接应用于视频流时会导致时间不一致性。
- Stream3D通过维护一个基于证据评分的紧凑记忆,选择性缓存信息帧,实现流式3D生成。
- 实验表明,Stream3D在真实和合成数据集上,光度和几何指标均优于现有方法,且无需额外训练。
📝 摘要(中文)
本文提出Stream3D,一种无需训练的流式机制,将冻结的视角条件3D生成器转化为流式生成器,并具有恒定的跨块内存。Stream3D通过维护一个紧凑的证据记忆来实现这一点,该记忆基于提出的证据评分机制选择性地缓存最具信息量的历史帧。随着视频流的进行,记忆动态更新以保留固定数量的信息帧,防止内存占用随序列长度线性增长。这也能防止长序列上的性能下降,并保持底层生成器完全不变,无需重新训练、架构修改或辅助损失。在真实和合成流式基准上的评估表明,Stream3D在光度和几何指标上优于潜在传输基线,包括KV缓存重用和基于流的特征编辑。
🔬 方法详解
问题定义:现有视角条件3D生成器,如SAM 3D、TRELLIS和Hunyuan3D,能够从单视角图像重建高质量的3D物体。然而,现实世界的视觉观测通常以单目视频流的形式出现。直接将这些生成器应用于视频流的每一帧,会导致生成结果在时间上严重不一致。因此,需要一种方法来保证视频流中3D重建结果的时序一致性,同时避免模型重新训练和架构修改。
核心思路:Stream3D的核心思路是维护一个紧凑的“证据记忆”,该记忆选择性地缓存最具信息量的历史帧。通过提出的“证据评分机制”,Stream3D能够评估每一帧的信息量,并动态更新记忆,始终保留固定数量的、最具代表性的帧。这样既能保证时序一致性,又能防止内存占用随视频长度线性增长。
技术框架:Stream3D的整体框架包括以下几个主要模块:1) 视角条件3D生成器:使用预训练的、冻结的视角条件3D生成器作为基础模型。2) 证据评分模块:计算每一帧的证据分数,用于评估其信息量。3) 证据记忆模块:维护一个固定大小的记忆,存储最具信息量的历史帧。4) 融合模块:将当前帧和记忆中的历史帧融合,生成最终的3D重建结果。
关键创新:Stream3D最重要的技术创新在于其“证据记忆”机制和“证据评分”方法。与简单的缓存所有历史帧或随机选择帧相比,Stream3D能够智能地选择最具代表性的帧,从而在保证时序一致性的同时,显著降低计算和存储成本。此外,Stream3D无需对底层3D生成器进行任何修改或重新训练,具有良好的通用性和可扩展性。
关键设计:证据评分机制的具体实现方式未知,论文中可能使用了某种启发式算法或学习方法来评估每一帧的信息量。证据记忆的大小是一个关键参数,需要根据具体的应用场景和计算资源进行调整。融合模块的具体实现方式也未知,可能使用了注意力机制或其他融合策略来整合当前帧和历史帧的信息。
🖼️ 关键图片
📊 实验亮点
Stream3D在真实和合成数据集上进行了评估,实验结果表明,Stream3D在光度和几何指标上均优于现有的潜在传输基线方法,包括KV缓存重用和基于流的特征编辑。具体的性能提升数据未知,但论文强调Stream3D能够在保证时序一致性的同时,显著降低计算和存储成本,且无需对底层3D生成器进行任何修改或重新训练。
🎯 应用场景
Stream3D在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,Stream3D可以帮助机器人实时重建周围环境的3D模型,从而更好地进行路径规划和避障。在自动驾驶中,Stream3D可以用于构建高精度的3D地图,提高车辆的感知能力和安全性。在增强现实中,Stream3D可以用于将虚拟物体无缝地融入到真实场景中,提供更加沉浸式的用户体验。
📄 摘要(原文)
View-conditioned 3D generators such as SAM 3D, TRELLIS and Hunyuan3D produce high-quality object reconstructions from a single view, but real-world visual observation often arrives as long monocular streams. Naively applying these generators to each streaming frame independently leads to severe temporal inconsistency in the generated results. To address this problem, we propose Stream3D, the first training-free streaming mechanism that turns a frozen view-conditioned 3D generator into a streaming generator with constant cross-chunk memory. Stream3D achieves this by maintaining a compact evidential memory, which selectively caches the most informative historical frames based on a proposed evidence score mechanism. As the stream progresses, the memory dynamically updates to retain a fixed number of informative frames, preventing the memory footprint from growing linearly with sequence length. This also prevents degradation over long sequences and keeps the underlying generator completely unchanged without retraining, architectural modifications, or auxiliary losses. Evaluated on both realistic and synthetic streaming benchmarks, Stream3D outperforms latent-transport baselines, including KV-cache reuse and flow-based feature editing, across both photometric and geometric metrics. More details can be found at: https://anonymous-submission-20.github.io/streaming3D.github.io/.