PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction
作者: Shizhe Chen, Paul Pacaud, Cordelia Schmid
分类: cs.RO, cs.CV
发布日期: 2026-05-20
备注: Accepted to RSS 2026; project webpage: https://cshizhe.github.io/projects/pointact.html
💡 一句话要点
PointACT:利用多尺度点-动作交互的3D感知视觉-语言-动作模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 机器人操作 3D点云 多尺度交互 自注意力机制
📋 核心要点
- 现有VLA模型主要依赖2D视觉信息,缺乏对3D环境精细几何和空间关系的推理能力,限制了机器人操作的精度和鲁棒性。
- PointACT将分层3D点云信息融入动作解码,通过多尺度点-动作交互机制,使模型能同时关注局部几何细节和全局场景结构。
- 实验表明,PointACT在LIBERO和RLBench上均优于现有VLA模型,在RLBench-10Tasks上成功率提升10%,尤其在冻结视觉-语言骨干网络时提升更显著。
📝 摘要(中文)
本文提出PointACT,一种双系统3D感知视觉-语言-动作(VLA)策略,它将分层3D点云表示直接集成到动作解码过程中。PointACT采用一种多尺度点-动作交互机制,结合高效的瓶颈窗口自注意力,使演化的动作令牌能够密集地关注局部几何细节和全局场景结构。我们在LIBERO和RLBench基准测试中评估了PointACT,并系统地将其与单片和双系统VLA基线进行比较,包括增加了点云输入的变体。PointACT在两个基准测试中都取得了持续的改进,在具有挑战性的RLBench-10Tasks套件上,成功率比最先进的预训练VLA提高了10%,当视觉-语言骨干网络被冻结并且动作专家从头开始训练时,增益甚至更大。大量的消融研究表明,将分层3D几何与预训练的2D语义表示紧密结合对于鲁棒和空间接地的机器人控制至关重要。我们的结果也突出了预训练3D表示对于3D感知VLA策略的潜力。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中表现出潜力,但主要依赖2D视觉表示,无法充分理解3D环境的几何信息和空间关系。这限制了模型在需要精细操作和鲁棒性的任务中的表现。现有方法难以有效融合2D语义信息和3D几何信息,导致空间推理能力不足。
核心思路:PointACT的核心思路是将3D点云信息直接融入到动作解码过程中,通过多尺度点-动作交互机制,使模型能够同时关注局部几何细节和全局场景结构。这种方法旨在弥合2D语义理解和3D几何推理之间的差距,从而提高机器人操作的精度和鲁棒性。
技术框架:PointACT采用双系统架构,包含视觉-语言骨干网络和3D动作专家。视觉-语言骨干网络负责提取2D图像的语义特征,3D动作专家负责处理3D点云信息并生成动作。PointACT的关键在于多尺度点-动作交互模块,该模块允许动作令牌与不同尺度的点云特征进行交互,从而实现对局部几何细节和全局场景结构的综合理解。整个流程包括:输入图像和点云数据,通过视觉-语言骨干网络提取2D特征,通过3D动作专家处理点云数据,利用多尺度点-动作交互模块融合2D和3D特征,最终生成动作指令。
关键创新:PointACT的关键创新在于多尺度点-动作交互机制。与现有方法不同,PointACT不是简单地将2D和3D特征拼接在一起,而是通过自注意力机制,使动作令牌能够动态地关注不同尺度的点云特征。这种方法能够更有效地融合2D语义信息和3D几何信息,从而提高模型的空间推理能力。此外,PointACT还采用了瓶颈窗口自注意力机制,以降低计算复杂度。
关键设计:PointACT的关键设计包括:1) 使用分层点云表示,以捕捉不同尺度的几何信息;2) 设计多尺度点-动作交互模块,允许动作令牌与不同尺度的点云特征进行交互;3) 采用瓶颈窗口自注意力机制,以降低计算复杂度。损失函数包括动作预测损失和辅助损失,用于提高模型的训练效率和泛化能力。具体的网络结构和参数设置根据不同的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
PointACT在LIBERO和RLBench基准测试中取得了显著的性能提升。在RLBench-10Tasks套件上,PointACT的成功率比最先进的预训练VLA提高了10%。当视觉-语言骨干网络被冻结并且动作专家从头开始训练时,PointACT的增益甚至更大,这表明PointACT能够有效地利用预训练的2D语义信息和3D几何信息。
🎯 应用场景
PointACT在机器人操作领域具有广泛的应用前景,例如家庭服务机器人、工业自动化、医疗手术机器人等。该研究可以提高机器人在复杂3D环境中执行任务的精度和鲁棒性,例如物体抓取、装配、导航等。未来,PointACT可以与其他技术相结合,例如强化学习、模仿学习等,以实现更智能、更自主的机器人操作。
📄 摘要(原文)
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation by leveraging large pretrained vision-language backbones. However, most existing VLAs rely primarily on 2D visual representations, which limit their ability to reason about fine-grained geometry and spatial grounding - capabilities that are essential for precise and robust manipulation in 3D environments. In this paper, we propose PointACT, a dual-system 3D-aware VLA policy that integrates hierarchical 3D point cloud representations directly into the action decoding process. PointACT employs a multi-scale point-action interaction mechanism with efficient bottleneck window self-attention, enabling evolving action tokens to densely attend to both local geometric detail and global scene structure. We evaluate PointACT on the LIBERO and RLBench benchmarks and systematically compare it against monolithic and dual-system VLA baselines, including variants augmented with point cloud inputs. PointACT achieves consistent improvements across both benchmarks, increasing success rates by 10% on the challenging RLBench-10Tasks suite over state-of-the-art pretrained VLAs, with even larger gains when the vision-language backbone is frozen and the action expert is trained from scratch. Extensive ablation studies demonstrate that tightly coupling hierarchical 3D geometry with pretrained 2D semantic representations is critical for robust and spatially grounded robot control. Our results also highlight the promise of pretrained 3D representations for 3D-aware VLA policies.