Improving Robotic Manipulation with Efficient Geometry-Aware Vision Encoder

📄 arXiv: 2509.15880v1 📥 PDF

作者: An Dinh Vuong, Minh Nhat Vu, Ian Reid

分类: cs.RO

发布日期: 2025-09-19

备注: 9 figures, 7 tables. Project page: https://evggt.github.io/


💡 一句话要点

提出高效几何感知视觉编码器eVGGT,提升机器人操作性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人操作 模仿学习 几何感知 视觉编码器 知识蒸馏

📋 核心要点

  1. 传统RGB视觉编码器缺乏3D推理能力,限制了机器人操作的性能。
  2. 提出高效几何感知编码器eVGGT,通过知识蒸馏保留VGGT的3D推理能力。
  3. 实验表明,在模仿学习框架中集成eVGGT,显著提升了机器人操作的成功率。

📝 摘要(中文)

现有的基于RGB图像的模仿学习方法通常采用ResNet或ViT等传统视觉编码器,这些编码器缺乏显式的3D推理能力。最近的几何感知视觉模型,如VGGT,提供了强大的空间理解能力,并有望解决这一局限性。本文研究了将几何感知视觉表征集成到机器人操作中。结果表明,将几何感知视觉编码器集成到模仿学习框架(包括ACT和DP)中,在模拟和真实环境中的单手和双手操作任务中,成功率比标准视觉编码器提高了6.5%。尽管有这些好处,但大多数几何感知模型需要高昂的计算成本,限制了它们在实际机器人系统中的部署。为了解决这个问题,我们提出了eVGGT,一种从VGGT中提炼出的高效几何感知编码器。eVGGT比VGGT快近9倍,体积小5倍,同时保持了强大的3D推理能力。代码和预训练模型将被发布,以促进几何感知机器人领域的进一步研究。

🔬 方法详解

问题定义:现有基于RGB图像的机器人模仿学习方法,依赖于ResNet、ViT等传统视觉编码器,这些编码器无法有效进行3D空间推理,导致机器人难以理解场景的几何信息,从而影响操作性能。VGGT等几何感知模型虽然能提供更强的空间理解,但计算成本过高,难以在实际机器人系统中部署。

核心思路:本文的核心思路是利用知识蒸馏技术,从计算量大的VGGT模型中提取其几何感知能力,并将其迁移到一个更小、更高效的编码器eVGGT中。这样既能保持较强的3D推理能力,又能显著降低计算成本,使其更适合在资源受限的机器人平台上使用。

技术框架:整体框架包含两个阶段:首先,训练一个高性能的VGGT模型作为教师模型;然后,使用VGGT的输出作为监督信号,训练一个更小的eVGGT模型作为学生模型。模仿学习框架(如ACT和DP)使用eVGGT提取视觉特征,并将其输入到策略网络中,最终控制机器人执行操作。

关键创新:关键创新在于提出了高效的几何感知编码器eVGGT,它通过知识蒸馏的方式,在保持较强3D推理能力的同时,显著降低了计算成本。这使得几何感知视觉表征能够更容易地应用于实际的机器人操作任务中。

关键设计:eVGGT的网络结构设计目标是尽可能简化模型,同时保留VGGT的关键特征提取能力。蒸馏训练过程中,使用了多种损失函数,包括特征匹配损失和行为模仿损失,以确保eVGGT能够学习到VGGT的几何感知能力和行为策略。具体的参数设置和网络结构细节将在论文中详细描述。

📊 实验亮点

实验结果表明,在单手和双手操作任务中,将eVGGT集成到模仿学习框架(ACT和DP)中,相比于使用标准视觉编码器,成功率提高了高达6.5%。同时,eVGGT比VGGT快近9倍,体积小5倍,证明了其在计算效率上的显著优势。这些结果验证了eVGGT在机器人操作任务中的有效性和实用性。

🎯 应用场景

该研究成果可广泛应用于各种机器人操作任务中,例如工业自动化、家庭服务机器人、医疗机器人等。通过提升机器人对环境的3D理解能力,可以显著提高其操作精度、鲁棒性和适应性,从而实现更高效、更智能的机器人系统。未来,该方法有望进一步扩展到其他机器人感知任务中,例如三维重建、物体识别和场景理解。

📄 摘要(原文)

Existing RGB-based imitation learning approaches typically employ traditional vision encoders such as ResNet or ViT, which lack explicit 3D reasoning capabilities. Recent geometry-grounded vision models, such as VGGT~\cite{wang2025vggt}, provide robust spatial understanding and are promising candidates to address this limitation. This work investigates the integration of geometry-aware visual representations into robotic manipulation. Our results suggest that incorporating the geometry-aware vision encoder into imitation learning frameworks, including ACT and DP, yields up to 6.5% improvement over standard vision encoders in success rate across single- and bi-manual manipulation tasks in both simulation and real-world settings. Despite these benefits, most geometry-grounded models require high computational cost, limiting their deployment in practical robotic systems. To address this challenge, we propose eVGGT, an efficient geometry-aware encoder distilled from VGGT. eVGGT is nearly 9 times faster and 5 times smaller than VGGT, while preserving strong 3D reasoning capabilities. Code and pretrained models will be released to facilitate further research in geometry-aware robotics.