OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera
作者: Hao Shi, Ze Wang, Shangwei Guo, Mengfei Duan, Song Wang, Teng Chen, Kailun Yang, Lin Wang, Kaiwei Wang
分类: cs.RO, cs.CV, eess.IV
发布日期: 2025-11-05
备注: Datasets and code will be publicly available at https://github.com/MasterHow/OneOcc
🔗 代码/项目: GITHUB
💡 一句话要点
OneOcc:针对腿足机器人,利用单目全景相机进行语义占据预测
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 语义占据预测 腿足机器人 全景视觉 场景补全 双重投影融合 双网格体素化 步态位移补偿
📋 核心要点
- 腿足机器人需要鲁棒的3D语义占据信息,但现有语义场景补全系统主要面向轮式平台和前向传感器。
- OneOcc利用单目全景视觉,通过双重投影融合、双网格体素化和步态位移补偿等模块,实现准确的全方位语义占据预测。
- 实验表明,OneOcc在QuadOcc和Human360Occ数据集上均取得了SOTA结果,尤其在跨城市泛化性能上提升显著。
📝 摘要(中文)
本文提出了一种名为OneOcc的视觉全景语义场景补全(SSC)框架,专为腿足/人形机器人设计,旨在解决步态引入的身体抖动和360°连续性问题。OneOcc结合了以下几个关键模块:(i) 双重投影融合(DP-ER),利用环形全景图及其等距柱状投影展开图,保持360°连续性和网格对齐;(ii) 双网格体素化(BGV),在笛卡尔空间和柱坐标空间中进行推理,减少离散化偏差并锐化自由/占据边界;(iii) 轻量级解码器,带有分层AMoE-3D,用于动态多尺度融合和更好的长距离/遮挡推理;(iv) 即插即用的步态位移补偿(GDC),学习特征级别的运动校正,无需额外的传感器。此外,我们还发布了两个全景占据基准数据集:QuadOcc(真实四足机器人,第一人称360°)和Human360Occ(H3O)(CARLA人类自我360°,包含RGB、深度、语义占据;标准化了市内/跨市分割)。OneOcc达到了新的SOTA水平:在QuadOcc上,它优于强大的视觉基线和流行的激光雷达基线;在H3O上,它获得了+3.83 mIoU(市内)和+8.08(跨市)。这些模块都是轻量级的,能够为腿足/人形机器人实现可部署的全方位感知。数据集和代码将在https://github.com/MasterHow/OneOcc上公开。
🔬 方法详解
问题定义:腿足机器人需要准确的3D语义占据信息来进行导航和环境理解。然而,现有的语义场景补全(SSC)系统主要针对轮式平台,依赖前向传感器,无法直接应用于腿足机器人。腿足机器人特有的步态抖动和360°全方位感知需求也带来了新的挑战。现有方法在处理全景图像时,容易出现360°边界不连续和离散化偏差等问题。
核心思路:OneOcc的核心思路是利用单目全景视觉,通过一系列创新模块来克服腿足机器人带来的挑战。它通过双重投影融合来保持360°连续性和网格对齐,使用双网格体素化来减少离散化偏差,并引入步态位移补偿来校正步态抖动带来的影响。这种设计旨在实现鲁棒、准确且高效的全方位语义占据预测。
技术框架:OneOcc的整体框架包括以下几个主要模块:1) 双重投影融合(DP-ER):将环形全景图及其等距柱状投影展开图进行融合,以保持360°连续性和网格对齐。2) 双网格体素化(BGV):在笛卡尔空间和柱坐标空间中进行体素化,减少离散化偏差。3) 轻量级解码器:使用分层AMoE-3D进行动态多尺度融合,以改善长距离和遮挡推理。4) 步态位移补偿(GDC):学习特征级别的运动校正,无需额外的传感器。整个流程是从全景图像输入开始,经过特征提取、融合、体素化、解码和补偿,最终输出语义占据预测结果。
关键创新:OneOcc的关键创新点在于:1) 针对腿足机器人的全景视觉语义占据预测:这是首次专门为腿足机器人设计的全景视觉SSC框架。2) 双重投影融合(DP-ER):有效解决了全景图像的360°边界不连续问题。3) 双网格体素化(BGV):减少了离散化偏差,提高了占据边界的清晰度。4) 步态位移补偿(GDC):无需额外传感器即可校正步态抖动带来的影响。
关键设计:在双重投影融合中,作者设计了一种自适应权重机制来平衡环形全景图和等距柱状投影展开图的信息。在双网格体素化中,作者选择了合适的体素大小和空间范围,以平衡计算复杂度和预测精度。在步态位移补偿中,作者使用了一个轻量级的神经网络来学习特征级别的运动校正。损失函数方面,作者使用了交叉熵损失函数来训练语义占据预测模型。
📊 实验亮点
OneOcc在QuadOcc数据集上超越了现有的视觉和激光雷达基线方法,并在Human360Occ数据集上取得了显著的性能提升。在H3O数据集的市内分割任务中,OneOcc的mIoU提升了3.83%,在跨市分割任务中,mIoU提升了8.08%。这些结果表明,OneOcc具有很强的泛化能力和鲁棒性,能够有效地处理不同场景和环境下的语义占据预测任务。
🎯 应用场景
OneOcc在腿足机器人、人形机器人、服务机器人等领域具有广泛的应用前景。它可以用于自主导航、环境理解、避障、目标识别等任务。该研究的实际价值在于提供了一种低成本、高效率的全方位感知解决方案,有助于提升机器人的自主性和适应性。未来,OneOcc可以进一步扩展到其他类型的机器人平台,并与其他传感器(如激光雷达、深度相机)进行融合,以实现更鲁棒和精确的感知能力。
📄 摘要(原文)
Robust 3D semantic occupancy is crucial for legged/humanoid robots, yet most semantic scene completion (SSC) systems target wheeled platforms with forward-facing sensors. We present OneOcc, a vision-only panoramic SSC framework designed for gait-introduced body jitter and 360° continuity. OneOcc combines: (i) Dual-Projection fusion (DP-ER) to exploit the annular panorama and its equirectangular unfolding, preserving 360° continuity and grid alignment; (ii) Bi-Grid Voxelization (BGV) to reason in Cartesian and cylindrical-polar spaces, reducing discretization bias and sharpening free/occupied boundaries; (iii) a lightweight decoder with Hierarchical AMoE-3D for dynamic multi-scale fusion and better long-range/occlusion reasoning; and (iv) plug-and-play Gait Displacement Compensation (GDC) learning feature-level motion correction without extra sensors. We also release two panoramic occupancy benchmarks: QuadOcc (real quadruped, first-person 360°) and Human360Occ (H3O) (CARLA human-ego 360° with RGB, Depth, semantic occupancy; standardized within-/cross-city splits). OneOcc sets new state-of-the-art (SOTA): on QuadOcc it beats strong vision baselines and popular LiDAR ones; on H3O it gains +3.83 mIoU (within-city) and +8.08 (cross-city). Modules are lightweight, enabling deployable full-surround perception for legged/humanoid robots. Datasets and code will be publicly available at https://github.com/MasterHow/OneOcc.