Persistent Object Gaussian Splat (POGS) for Tracking Human and Robot Manipulation of Irregularly Shaped Objects
作者: Justin Yu, Kush Hari, Karim El-Refai, Arnav Dalal, Justin Kerr, Chung Min Kim, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
分类: cs.RO
发布日期: 2025-03-07
备注: Accepted to ICRA 2025
💡 一句话要点
提出POGS,用于跟踪人机协作中不规则物体的操作与姿态估计
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 高斯溅射 物体跟踪 姿态估计 机器人操作 人机协作 自监督学习 深度估计
📋 核心要点
- 现有方法难以在动态环境中跟踪和操作不规则物体,尤其是在缺乏先验模型的情况下,鲁棒性不足。
- POGS通过将语义、视觉特征和物体分组信息嵌入高斯球中,实现对物体状态的持续更新和姿态估计。
- 实验表明,POGS在物体重置和工具伺服任务中表现出色,能够有效应对物体扰动和工具姿态变化。
📝 摘要(中文)
本文提出了一种名为Persistent Object Gaussian Splat (POGS)的系统,用于在动态环境中跟踪和操作不规则形状的、先前未见过的物体。这对于制造、装配和物流等机器人应用至关重要。POGS将语义信息、自监督视觉特征和物体分组特征嵌入到一个紧凑的表示中,并能持续更新以估计扫描物体的姿态。POGS无需昂贵的重新扫描或物体的先验CAD模型即可更新物体状态。在初始的多视角场景捕获和训练阶段之后,POGS使用单个立体相机来整合深度估计以及自监督视觉编码器特征,以进行物体姿态估计。POGS支持抓取、重新定向和自然语言驱动的操作,通过细化物体姿态估计,促进连续的物体重置操作,能够应对人为的物体扰动和工具伺服,即使工具受到高达30°的扰动,机器人也能恢复工具姿态。POGS实现了多达12次连续成功的物体重置,并能从80%的抓取工具扰动中恢复。
🔬 方法详解
问题定义:论文旨在解决在动态环境中,机器人如何跟踪和操作不规则形状的、之前未见过的物体的问题。现有方法通常依赖于昂贵的重新扫描或物体的先验CAD模型,并且难以应对物体扰动和工具姿态变化。这些痛点限制了机器人在制造、装配和物流等领域的应用。
核心思路:POGS的核心思路是将物体表示为高斯球的集合,并为每个高斯球嵌入语义信息、自监督视觉特征和物体分组特征。通过持续更新这些特征,POGS能够估计物体的姿态,并应对物体扰动和工具姿态变化。这种方法避免了对物体进行重新扫描或依赖先验CAD模型的需求。
技术框架:POGS系统包含以下主要阶段:1) 初始多视角场景捕获和训练阶段,用于学习物体的高斯球表示和嵌入特征;2) 使用单个立体相机进行深度估计,并提取自监督视觉编码器特征;3) 将深度估计和视觉特征融合,用于物体姿态估计;4) 通过优化高斯球的参数,细化物体姿态估计。
关键创新:POGS的关键创新在于将语义信息、自监督视觉特征和物体分组特征嵌入到高斯球表示中。这种嵌入式表示能够有效地捕捉物体的几何形状和外观信息,并支持对物体状态的持续更新。此外,POGS还提出了一种新的物体姿态估计方法,该方法能够有效地应对物体扰动和工具姿态变化。
关键设计:POGS使用高斯混合模型来表示物体,每个高斯分量包含位置、协方差、颜色、不透明度等参数。自监督视觉特征通过预训练的视觉编码器提取。物体分组特征用于将属于同一物体的不同高斯分量进行关联。损失函数包括深度损失、视觉特征损失和分组损失,用于优化高斯球的参数。
🖼️ 关键图片
📊 实验亮点
POGS在物体重置任务中实现了多达12次连续成功的重置,表明其具有很强的鲁棒性和稳定性。在工具伺服任务中,POGS能够从80%的抓取工具扰动中恢复,即使工具受到高达30°的扰动。这些结果表明,POGS能够有效地应对物体扰动和工具姿态变化,并实现精确的物体操作。
🎯 应用场景
POGS可应用于机器人制造、装配和物流等领域,例如自动化装配线上的零件抓取和放置、仓库中的货物拣选和包装、以及人机协作环境中的物体操作。该研究成果有助于提高机器人在复杂环境中的适应性和鲁棒性,降低对先验知识的依赖,并促进更智能、更灵活的机器人系统的发展。
📄 摘要(原文)
Tracking and manipulating irregularly-shaped, previously unseen objects in dynamic environments is important for robotic applications in manufacturing, assembly, and logistics. Recently introduced Gaussian Splats efficiently model object geometry, but lack persistent state estimation for task-oriented manipulation. We present Persistent Object Gaussian Splat (POGS), a system that embeds semantics, self-supervised visual features, and object grouping features into a compact representation that can be continuously updated to estimate the pose of scanned objects. POGS updates object states without requiring expensive rescanning or prior CAD models of objects. After an initial multi-view scene capture and training phase, POGS uses a single stereo camera to integrate depth estimates along with self-supervised vision encoder features for object pose estimation. POGS supports grasping, reorientation, and natural language-driven manipulation by refining object pose estimates, facilitating sequential object reset operations with human-induced object perturbations and tool servoing, where robots recover tool pose despite tool perturbations of up to 30°. POGS achieves up to 12 consecutive successful object resets and recovers from 80% of in-grasp tool perturbations.