OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams
作者: Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie
分类: cs.CV
发布日期: 2026-03-12
备注: Technical Report. Project Page: https://go2heart.github.io/omnistream/
💡 一句话要点
OmniStream:提出统一的流式视觉主干网络,实现感知、重建和动作的统一建模。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 流式视觉 通用视觉模型 时空注意力 3D旋转位置编码 多任务学习 机器人操作 视频理解
📋 核心要点
- 现有视觉基础模型专注于图像语义感知、离线时序建模或空间几何,缺乏通用性。
- OmniStream通过因果时空注意力和3D-RoPE,实现高效的逐帧在线视频流处理,并支持感知、重建和动作。
- 实验表明,OmniStream在多种任务上与专家模型具有竞争力,验证了通用视觉主干网络的可行性。
📝 摘要(中文)
本文提出OmniStream,一个统一的流式视觉主干网络,能够有效地感知、重建和处理来自不同视觉输入的动作。该模型通过结合因果时空注意力机制和3D旋转位置编码(3D-RoPE),支持通过持久的KV缓存进行高效的逐帧在线视频流处理。OmniStream使用协同多任务框架进行预训练,该框架耦合了静态和时间表示学习、流式几何重建以及视觉-语言对齐,并在29个数据集上进行训练。大量评估表明,即使使用严格冻结的主干网络,OmniStream在图像和视频探测、流式几何重建、复杂视频和空间推理以及机器人操作(训练中未见)方面,也能与专门的专家模型取得一致的竞争性性能。该工作展示了训练单个、通用的视觉主干网络的可行性,该网络可以泛化到语义、空间和时间推理,朝着交互式和具身智能体的通用视觉理解迈出了有意义的一步。
🔬 方法详解
问题定义:现有视觉模型通常是碎片化的,专注于特定的任务,例如图像语义感知、离线时序建模或空间几何。这些模型缺乏通用性,难以适应实时流式环境下的感知、重建和动作等多种任务需求。现有方法难以兼顾效率和性能,无法在在线处理视频流的同时保持较高的精度。
核心思路:OmniStream的核心思路是构建一个统一的视觉主干网络,能够同时处理语义、空间和时间信息。通过引入因果时空注意力机制和3D旋转位置编码,模型能够有效地捕捉视频流中的时序关系和空间结构,并支持高效的在线处理。多任务预训练框架进一步提升了模型的泛化能力,使其能够适应不同的视觉任务。
技术框架:OmniStream的整体架构是一个基于Transformer的视觉主干网络。该网络接收视频帧作为输入,并使用因果时空注意力机制进行处理。3D旋转位置编码用于编码空间信息。模型使用持久的KV缓存来存储历史信息,从而实现高效的在线处理。模型通过多任务预训练框架进行训练,该框架包括静态和时间表示学习、流式几何重建以及视觉-语言对齐等任务。
关键创新:OmniStream的关键创新在于其统一的架构和多任务预训练框架。该架构能够同时处理语义、空间和时间信息,从而实现对视频流的全面理解。多任务预训练框架能够提升模型的泛化能力,使其能够适应不同的视觉任务。因果时空注意力机制和3D旋转位置编码是实现高效在线处理的关键技术。
关键设计:OmniStream使用了因果时空注意力机制,确保模型只能关注过去的信息,从而避免了信息泄露。3D旋转位置编码用于编码空间信息,并能够提升模型的旋转不变性。多任务预训练框架包括多个损失函数,用于优化不同的任务。具体的网络结构和参数设置需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
OmniStream在多个任务上取得了与专家模型具有竞争力的性能,包括图像和视频探测、流式几何重建、复杂视频和空间推理以及机器人操作。即使使用严格冻结的主干网络,OmniStream仍然表现出色,证明了其强大的泛化能力。这些结果表明,训练单个、通用的视觉主干网络是可行的。
🎯 应用场景
OmniStream具有广泛的应用前景,例如机器人导航、自动驾驶、视频监控、虚拟现实等。它可以作为智能体的视觉感知模块,提供对环境的全面理解,并支持智能体的决策和行动。该研究为构建通用人工智能系统奠定了基础,有望推动人工智能技术的发展。
📄 摘要(原文)
Modern visual agents require representations that are general, causal, and physically structured to operate in real-time streaming environments. However, current vision foundation models remain fragmented, specializing narrowly in image semantic perception, offline temporal modeling, or spatial geometry. This paper introduces OmniStream, a unified streaming visual backbone that effectively perceives, reconstructs, and acts from diverse visual inputs. By incorporating causal spatiotemporal attention and 3D rotary positional embeddings (3D-RoPE), our model supports efficient, frame-by-frame online processing of video streams via a persistent KV-cache. We pre-train OmniStream using a synergistic multi-task framework coupling static and temporal representation learning, streaming geometric reconstruction, and vision-language alignment on 29 datasets. Extensive evaluations show that, even with a strictly frozen backbone, OmniStream achieves consistently competitive performance with specialized experts across image and video probing, streaming geometric reconstruction, complex video and spatial reasoning, as well as robotic manipulation (unseen at training). Rather than pursuing benchmark-specific dominance, our work demonstrates the viability of training a single, versatile vision backbone that generalizes across semantic, spatial, and temporal reasoning, i.e., a more meaningful step toward general-purpose visual understanding for interactive and embodied agents.