Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models

📄 arXiv: 2604.12908v1 📥 PDF

作者: Zijian Song, Qichang Li, Jiawei Zhou, Zhenlong Yuan, Tianshui Chen, Liang Lin, Guangrun Wang

分类: cs.RO

发布日期: 2026-04-14

备注: 18 pages, 10 figures


💡 一句话要点

提出视觉-几何模型以解决机器人操作中的几何映射问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-几何映射 机器人操作 3D表示 物理智能 零-shot泛化

📋 核心要点

  1. 现有的视觉-语言和视频模型在处理物理操作时,往往依赖于2D图像和语义概念,无法有效捕捉3D几何特性。
  2. 本文提出的VGA模型通过使用预训练的3D世界模型,直接将视觉输入映射到物理动作,克服了传统方法的局限性。
  3. 实验结果表明,VGA在模拟基准测试中超越了顶尖的视觉-语言基线,尤其在未见视角的实际应用中表现出色。

📝 摘要(中文)

本文核心观点是,机器人操作本质上是视觉到几何的映射问题。物理动作由几何特性定义,因此我们认为通用机器人控制的基础应是视觉-几何骨干,而非传统的视觉-语言或视频模型。我们提出了视觉-几何-动作(VGA)模型,直接基于预训练的3D表示生成动作,建立了视觉输入与物理动作之间的无缝映射。通过大量实验验证了VGA在精确操作上的优越性,尤其在面对未见视角时展现出卓越的零-shot泛化能力。

🔬 方法详解

问题定义:本文旨在解决机器人操作中的视觉到几何映射问题。现有的视觉-语言和视频模型在处理物理动作时,主要依赖于2D图像和语义概念,导致无法有效捕捉3D几何特性,限制了其在实际操作中的应用。

核心思路:我们提出的视觉-几何-动作(VGA)模型,直接基于预训练的3D表示生成动作,建立了视觉输入与物理动作之间的无缝映射。这一设计旨在提高机器人操作的精确性和泛化能力。

技术框架:VGA模型的整体架构包括三个主要模块:预训练的3D世界模型、视觉输入处理模块和动作生成模块。通过这些模块的协同工作,VGA能够实现从视觉输入到物理动作的直接映射。

关键创新:VGA模型的核心创新在于用预训练的3D表示替代传统的语言或视频骨干,直接进行视觉到几何的映射。这一方法与现有的视觉-语言模型本质上不同,后者依赖于2D语义信息,无法有效捕捉3D几何特性。

关键设计:在模型设计中,我们引入了渐进体积调制模块,以增强几何一致性,并采用联合训练策略。具体的损失函数和网络结构细节在论文中进行了详细描述,以确保模型的有效性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,VGA模型在模拟基准测试中超越了顶尖的视觉-语言基线,如$π_{0.5}$和GeoVLA,尤其在精确操作方面表现优越。此外,VGA在面对未见视角时展现出卓越的零-shot泛化能力,持续优于$π_{0.5}$,证明了其在实际应用中的潜力。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化制造、无人驾驶等。通过实现更高效的视觉-几何映射,VGA模型能够提升机器人在复杂环境中的操作能力,推动物理智能的发展。未来,该技术有望在更多实际场景中得到应用,提升机器人与人类的协作效率。

📄 摘要(原文)

At its core, robotic manipulation is a problem of vision-to-geometry mapping ($f(v) \rightarrow G$). Physical actions are fundamentally defined by geometric properties like 3D positions and spatial relationships. Consequently, we argue that the foundation for generalizable robotic control should be a vision-geometry backbone, rather than the widely adopted vision-language or video models. Conventional VLA and video-predictive models rely on backbones pretrained on large-scale 2D image-text or temporal pixel data. While effective, their representations are largely shaped by semantic concepts or 2D priors, which do not intrinsically align with the precise 3D geometric nature required for physical manipulation. Driven by this insight, we propose the Vision-Geometry-Action (VGA) model, which directly conditions action generation on pretrained native 3D representations. Specifically, VGA replaces conventional language or video backbones with a pretrained 3D world model, establishing a seamless vision-to-geometry mapping that translates visual inputs directly into physical actions. To further enhance geometric consistency, we introduce a Progressive Volumetric Modulation module and adopt a joint training strategy. Extensive experiments validate the effectiveness of our approach. In simulation benchmarks, VGA outperforms top-tier VLA baselines including $π_{0.5}$ and GeoVLA, demonstrating its superiority in precise manipulation. More importantly, VGA exhibits remarkable zero-shot generalization to unseen viewpoints in real-world deployments, consistently outperforming $π_{0.5}$. These results highlight that operating on native 3D representations-rather than translating through language or 2D video priors-is a highly promising direction for achieving generalizable physical intelligence.