RobotPan: A 360$^\circ$ Surround-View Robotic Vision System for Embodied Perception

📄 arXiv: 2604.13476v1 📥 PDF

作者: Jiahao Ma, Qiang Zhang, Peiran Liu, Zeran Su, Pihai Sun, Gang Han, Wen Zhao, Wei Cui, Zhang Zhang, Zhiyuan Xu, Renjing Xu, Jian Tang, Miaomiao Liu, Yijie Guo

分类: cs.RO, cs.CV

发布日期: 2026-04-15

备注: Project website: https://robotpan.github.io/


💡 一句话要点

RobotPan:面向具身感知的360°全景机器人视觉系统

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 全景视觉 机器人视觉 3D重建 新视角合成 具身感知

📋 核心要点

  1. 现有机器人视觉界面通常局限于狭窄的前向视图,或需要手动切换多个摄像头,中断操作员工作流程,存在局限性。
  2. RobotPan通过结合六个摄像头和激光雷达,提供360°全景视觉,并采用前馈框架预测度量尺度3D高斯分布,实现实时渲染。
  3. 实验表明,RobotPan在保证重建质量的同时,显著减少了高斯分布的数量,更适合实时具身部署,并发布了相关数据集。

📝 摘要(中文)

本文提出了一种全景机器人视觉系统,该系统结合了六个摄像头和激光雷达,提供完整的360°视觉覆盖,同时满足具身部署的几何和实时性约束。此外,本文还提出了RobotPan,一个前馈框架,用于从校准的稀疏视图输入中预测度量尺度和紧凑的3D高斯分布,以实现实时渲染、重建和流式传输。RobotPan将多视图特征提升到统一的球坐标表示中,并使用分层球体素先验解码高斯分布,在机器人附近分配精细分辨率,在较大半径处分配较粗分辨率,以减少计算冗余而不牺牲保真度。为了支持长序列,我们的在线融合更新动态内容,同时通过选择性地更新外观来防止静态区域的无限增长。最后,我们发布了一个多传感器数据集,专门用于机器人技术的360°新视角合成和度量3D重建,涵盖了真实平台上的导航、操作和运动。实验表明,RobotPan在质量上与先前的前馈重建和视角合成方法相比具有竞争力,同时产生的高斯分布数量大大减少,从而实现了实际的实时具身部署。

🔬 方法详解

问题定义:现有机器人视觉系统通常视野狭窄或需要手动切换摄像头,影响操作员体验,且运动引起的抖动会导致头戴式显示器中的模拟器眩晕。因此,需要一个能够提供360°全景视图、实时性好、几何精度高的机器人视觉系统。

核心思路:RobotPan的核心思路是利用多摄像头和激光雷达融合,构建360°全景视图,并采用前馈网络预测度量尺度的3D高斯分布,实现高效的实时渲染和重建。通过分层球体素先验,在机器人附近分配精细分辨率,在远处分配粗糙分辨率,从而在保证精度的同时减少计算量。

技术框架:RobotPan系统包含以下几个主要模块:1) 多摄像头和激光雷达数据采集;2) 多传感器数据校准;3) 多视图特征提取;4) 基于球坐标表示的特征融合;5) 基于分层球体素先验的3D高斯分布解码;6) 在线融合和外观更新。整体流程是从多视图输入中提取特征,然后将其融合到统一的球坐标系中,最后解码成3D高斯分布用于渲染和重建。

关键创新:RobotPan的关键创新在于:1) 提出了一个端到端的前馈框架,可以直接从多视图输入预测度量尺度的3D高斯分布,避免了传统方法中复杂的几何计算;2) 采用了分层球体素先验,能够根据距离自适应地调整分辨率,从而在保证精度的同时减少计算量;3) 提出了在线融合和外观更新策略,能够处理长序列数据,并防止静态区域的无限增长。

关键设计:RobotPan的关键设计包括:1) 使用球面坐标系进行特征融合,能够更好地处理360°全景数据;2) 使用分层球体素先验,通过调整体素大小来控制分辨率;3) 在线融合模块使用选择性更新策略,只更新动态区域的外观,避免静态区域的冗余计算。损失函数方面,可能使用了渲染损失和重建损失,以保证渲染图像的质量和重建模型的精度。网络结构方面,采用了编码器-解码器结构,编码器用于提取多视图特征,解码器用于解码3D高斯分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RobotPan在360°新视角合成和度量3D重建任务上取得了具有竞争力的结果,并且生成的高斯分布数量显著减少。与现有前馈重建和视角合成方法相比,RobotPan在保证质量的同时,大大降低了计算复杂度,使其能够满足实时具身部署的需求。

🎯 应用场景

RobotPan适用于远程操作、数据收集和紧急接管等需要人机协作的机器人应用场景。它可以为操作员提供沉浸式的360°全景视图,提高操作效率和安全性。此外,该系统还可以用于机器人导航、操作和运动规划等任务,具有广泛的应用前景。

📄 摘要(原文)

Surround-view perception is increasingly important for robotic navigation and loco-manipulation, especially in human-in-the-loop settings such as teleoperation, data collection, and emergency takeover. However, current robotic visual interfaces are often limited to narrow forward-facing views, or, when multiple on-board cameras are available, require cumbersome manual switching that interrupts the operator's workflow. Both configurations suffer from motion-induced jitter that causes simulator sickness in head-mounted displays. We introduce a surround-view robotic vision system that combines six cameras with LiDAR to provide full 360$^\circ$ visual coverage, while meeting the geometric and real-time constraints of embodied deployment. We further present \textsc{RobotPan}, a feed-forward framework that predicts \emph{metric-scaled} and \emph{compact} 3D Gaussians from calibrated sparse-view inputs for real-time rendering, reconstruction, and streaming. \textsc{RobotPan} lifts multi-view features into a unified spherical coordinate representation and decodes Gaussians using hierarchical spherical voxel priors, allocating fine resolution near the robot and coarser resolution at larger radii to reduce computational redundancy without sacrificing fidelity. To support long sequences, our online fusion updates dynamic content while preventing unbounded growth in static regions by selectively updating appearance. Finally, we release a multi-sensor dataset tailored to 360$^\circ$ novel view synthesis and metric 3D reconstruction for robotics, covering navigation, manipulation, and locomotion on real platforms. Experiments show that \textsc{RobotPan} achieves competitive quality against prior feed-forward reconstruction and view-synthesis methods while producing substantially fewer Gaussians, enabling practical real-time embodied deployment. Project website: https://robotpan.github.io/