PRISM: Pointcloud Reintegrated Inference via Segmentation and Cross-attention for Manipulation
作者: Daqi Huang, Zhehao Cai, Yuzhi Hao, Zechen Li, Chee-Meng Chew
分类: cs.RO
发布日期: 2025-07-07
🔗 代码/项目: GITHUB
💡 一句话要点
PRISM:通过分割和交叉注意力进行点云重构推理,用于机器人操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 模仿学习 点云处理 交叉注意力 扩散模型 三维感知 端到端学习
📋 核心要点
- 现有机器人操作模仿学习方法在复杂环境中感知能力不足,固定视角易受影响,点云方法依赖关键帧。
- PRISM通过分割点云、融合机器人状态和扩散模型生成动作,实现端到端的机器人操作模仿学习。
- 实验表明,PRISM在复杂环境中优于2D和3D基线策略,仅需少量演示数据即可训练。
📝 摘要(中文)
为了实现机器人操作的鲁棒模仿学习,需要全面的3D感知,但许多现有方法在杂乱环境中表现不佳。固定相机视角的方法容易受到视角变化的影响,而3D点云技术通常仅限于关键帧预测,降低了其在动态、接触密集型任务中的有效性。为了解决这些挑战,我们提出了PRISM,它被设计为一个端到端框架,可以直接从原始点云观测和机器人状态中学习,无需预训练模型或外部数据集。PRISM包含三个主要组成部分:一个分割嵌入单元,将原始点云划分为不同的对象簇并编码局部几何细节;一个交叉注意力组件,将这些视觉特征与处理后的机器人关节状态融合,以突出显示相关目标;以及一个扩散模块,将融合的表示转换为平滑的机器人动作。通过在每个任务上训练100个演示,PRISM在我们模拟环境中在准确性和效率方面都超过了2D和3D基线策略,在复杂、对象密集的场景中表现出强大的鲁棒性。代码和一些演示可在https://github.com/czknuaa/PRISM上找到。
🔬 方法详解
问题定义:现有机器人操作模仿学习方法在复杂、物体密集的场景中表现不佳。固定相机视角的方法容易受到视角变化的影响,导致泛化能力差。而基于3D点云的方法通常只关注关键帧的预测,忽略了动态和接触密集型任务中的连续性,限制了其应用范围。因此,需要一种能够直接从原始点云数据中学习,并且能够处理复杂环境和动态任务的机器人操作模仿学习方法。
核心思路:PRISM的核心思路是将原始点云分割成不同的对象簇,并提取每个簇的局部几何特征。然后,利用交叉注意力机制将这些视觉特征与机器人关节状态融合,从而突出显示与当前任务相关的目标对象。最后,使用扩散模型将融合后的表示转换为平滑的机器人动作序列。这种设计能够有效地利用点云数据中的空间信息,并结合机器人自身的状态信息,从而实现更鲁棒和高效的机器人操作。
技术框架:PRISM的整体框架包含三个主要模块:1) 分割嵌入单元:负责将原始点云分割成不同的对象簇,并提取每个簇的局部几何特征。2) 交叉注意力组件:负责将视觉特征与机器人关节状态融合,突出显示相关目标。3) 扩散模块:负责将融合后的表示转换为平滑的机器人动作序列。整个框架以端到端的方式进行训练,直接从原始点云观测和机器人状态中学习,无需预训练模型或外部数据集。
关键创新:PRISM的关键创新在于其将点云分割、交叉注意力和扩散模型相结合,形成了一个端到端的机器人操作模仿学习框架。与现有方法相比,PRISM能够直接从原始点云数据中学习,无需手动设计特征或依赖外部数据集。此外,PRISM利用交叉注意力机制将视觉特征与机器人状态融合,从而更好地理解场景和任务需求。最后,PRISM使用扩散模型生成平滑的机器人动作序列,避免了传统方法中可能出现的动作抖动或不连续问题。
关键设计:在分割嵌入单元中,使用了PointNet++网络来提取点云特征。交叉注意力组件使用了多头注意力机制,以更好地捕捉视觉特征和机器人状态之间的关系。扩散模块使用了DDPM(Denoising Diffusion Probabilistic Models)模型,并针对机器人操作任务进行了优化。损失函数包括模仿学习损失和正则化损失,以提高模型的泛化能力和鲁棒性。具体参数设置和网络结构细节可在论文原文中找到。
🖼️ 关键图片
📊 实验亮点
PRISM在模拟环境中进行了实验,结果表明,在每个任务上训练100个演示后,PRISM在准确性和效率方面都超过了2D和3D基线策略。尤其是在复杂、对象密集的场景中,PRISM表现出强大的鲁棒性,证明了其在机器人操作模仿学习方面的有效性。代码和演示可在GitHub上找到。
🎯 应用场景
PRISM在机器人操作领域具有广泛的应用前景,例如自动化装配、物体抓取、家庭服务机器人等。该方法能够使机器人在复杂、物体密集的场景中更鲁棒地执行任务,提高机器人的自主性和适应性。未来,PRISM可以扩展到其他机器人任务中,例如导航、搜索和救援等,为机器人技术的发展做出贡献。
📄 摘要(原文)
Robust imitation learning for robot manipulation requires comprehensive 3D perception, yet many existing methods struggle in cluttered environments. Fixed camera view approaches are vulnerable to perspective changes, and 3D point cloud techniques often limit themselves to keyframes predictions, reducing their efficacy in dynamic, contact-intensive tasks. To address these challenges, we propose PRISM, designed as an end-to-end framework that directly learns from raw point cloud observations and robot states, eliminating the need for pretrained models or external datasets. PRISM comprises three main components: a segmentation embedding unit that partitions the raw point cloud into distinct object clusters and encodes local geometric details; a cross-attention component that merges these visual features with processed robot joint states to highlight relevant targets; and a diffusion module that translates the fused representation into smooth robot actions. With training on 100 demonstrations per task, PRISM surpasses both 2D and 3D baseline policies in accuracy and efficiency within our simulated environments, demonstrating strong robustness in complex, object-dense scenarios. Code and some demos are available on https://github.com/czknuaa/PRISM.