Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring

作者: Teng Yan, Zhengyang Pei, Chengyu Shi, Yue Yu, Yikun Chen, Zilong Zhu, Zelin Fang, Kaile Guo, Zihang Wang, Peigen Tian, Bingzhuo Zhong

分类: cs.RO

发布日期: 2026-03-24

备注: 8 pages. Submitted to IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2026

💡 一句话要点

Agile-VLA：基于隐式可供性锚定的少样本工业姿态校正

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 边缘计算 机器人姿态校正 隐式可供性 少样本学习

📋 核心要点

现有VLA模型在边缘设备上部署时，面临语义推理延迟高和动态操作控制频率需求高的矛盾。
Agile-VLA通过隐式可供性锚定，将几何视觉特征直接映射到参数化动作原语，减少对高延迟语义推理的依赖。
实验表明，Agile-VLA仅需少量样本即可实现复杂工件的姿态校正，验证了其在边缘设备上的有效性。

📝 摘要（中文）

本文提出Agile-VLA，一个分层框架，旨在解决在资源受限的边缘平台（如NVIDIA Jetson Orin Nano）上部署视觉-语言-动作(VLA)模型时，高延迟语义推理与动态操作所需的高频控制之间的根本冲突。核心创新是隐式可供性锚定机制，它将几何视觉线索（特别是质心和边缘关键点锚点）直接映射到结构化的参数化动作原语，从而显著减少了对闭环控制期间高延迟语义推理的依赖。通过异步双流架构解耦感知（10 Hz）和控制（50 Hz），该系统有效地缓解了基于边缘的机器人学习中固有的频率不匹配问题。在标准6自由度机械臂上的实验结果表明，Agile-VLA仅通过5次演示，即可通过外在灵巧性实现对复杂、不规则工件的鲁棒校正。

🔬 方法详解

问题定义：论文旨在解决在边缘设备上部署VLA模型时，由于语义推理的高延迟与机器人控制所需的高频率之间的冲突，导致机器人难以进行实时动态操作的问题。现有方法通常依赖于高延迟的语义理解，无法满足工业场景对实时性的要求。

核心思路：论文的核心思路是通过隐式可供性锚定，绕过高延迟的语义推理，直接将视觉特征（如质心和边缘关键点）映射到参数化的动作原语。这种方法利用几何信息来指导控制，从而降低了对复杂语义理解的依赖，提高了控制频率。

技术框架：Agile-VLA采用异步双流架构，包含感知和控制两个独立运行的模块。感知模块以较低的频率（10Hz）提取视觉特征，包括质心和边缘关键点。控制模块以较高的频率（50Hz）接收感知模块的输出，并根据隐式可供性锚定机制生成动作原语，控制机器人进行姿态校正。两个模块异步运行，从而解耦了感知和控制的频率。

关键创新：最重要的技术创新点是隐式可供性锚定机制。该机制通过学习一个映射函数，将几何视觉特征直接映射到参数化的动作原语。与现有方法相比，该机制避免了对高延迟语义推理的依赖，从而提高了控制频率和实时性。此外，该方法通过少量样本学习即可实现良好的性能，降低了数据收集和标注的成本。

关键设计：隐式可供性锚定机制使用神经网络来学习视觉特征到动作原语的映射。网络的输入是质心和边缘关键点的位置信息，输出是参数化的动作原语，例如旋转角度和平移距离。损失函数的设计旨在最小化预测动作与目标动作之间的差异。具体而言，可以使用均方误差（MSE）损失函数来衡量预测动作与目标动作之间的差距。此外，还可以使用正则化项来防止过拟合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Agile-VLA在6自由度机械臂上仅使用5次演示即可实现对复杂、不规则工件的鲁棒姿态校正。该方法通过外在灵巧性实现了高效的控制，并且在边缘设备上表现出良好的实时性。与传统的基于语义理解的方法相比，Agile-VLA显著降低了对计算资源的需求，提高了控制频率。

🎯 应用场景

Agile-VLA在工业自动化领域具有广泛的应用前景，例如在柔性制造、装配、质量检测等场景中，可以用于快速、准确地校正工件的姿态，提高生产效率和产品质量。该方法尤其适用于资源受限的边缘设备，可以实现低成本、高效率的机器人控制。未来，该技术有望应用于更复杂的机器人任务，例如自主导航、物体抓取等。

📄 摘要（原文）

Deploying Vision-Language-Action (VLA) models on resource-constrained edge platforms encounters a fundamental conflict between high-latency semantic inference and the high-frequency control required for dynamic manipulation. To address the challenge, this paper presents Agile-VLA, a hierarchical framework designed for industrial pose reorientation tasks on edge devices such as the NVIDIA Jetson Orin Nano. The core innovation is an Implicit Affordance Anchoring mechanism that directly maps geometric visual cues, specifically centroid and rim keypoint anchors, into structured parametric action primitives, thereby substantially reducing reliance on high-latency semantic inference during closed-loop control. By decoupling perception (10 Hz) from control (50 Hz) via an asynchronous dual-stream architecture, the system effectively mitigates the frequency mismatch inherent in edge-based robot learning. Experimental results on a standard 6-DoF manipulator demonstrate that Agile-VLA achieves robust rectification of complex, irregular workpieces using only 5-shot demonstrations through extrinsic dexterity.

Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理