ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing

作者: Alessandro Scherl, Stefan Thalhammer, Bernhard Neuberger, Wilfried Wöber, José García-Rodríguez

分类: cs.RO, cs.CV

发布日期: 2025-03-06

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ViT-VS：利用预训练Vision Transformer特征实现通用视觉伺服

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视觉伺服 Vision Transformer 预训练模型 机器人控制 图像特征提取

📋 核心要点

传统视觉伺服依赖手工特征，泛化性好但易受遮挡和环境变化影响；学习方法鲁棒性强，但需大量训练数据。
ViT-VS利用预训练Vision Transformer提取语义特征，结合传统方法和学习方法的优势，实现更好的泛化能力。
实验表明，ViT-VS在扰动场景下优于传统方法，性能与学习方法相当，且无需特定任务或对象训练。

📝 摘要（中文）

视觉伺服使机器人能够相对于目标物体精确定位其末端执行器。传统方法依赖于手工设计的特征，因此具有普遍适用性，无需特定于任务的训练，但它们通常难以应对遮挡和环境变化。而基于学习的方法提高了鲁棒性，但通常需要大量的训练。本文提出了一种视觉伺服方法，该方法利用预训练的Vision Transformer进行语义特征提取，结合了两种范例的优点，并且能够推广到提供的样本之外。我们的方法在无扰动场景中实现了完全收敛，并且在扰动场景中超过了经典的基于图像的视觉伺服，相对改进高达31.2％。即使在不需要任务或对象特定训练的情况下，也达到了基于学习的方法的收敛速度。真实世界的评估证实了末端执行器定位、工业箱体操作以及仅使用来自同一类别的参考来抓取未见物体的强大性能。我们的代码和仿真环境可在以下网址获得：https://alessandroscherl.github.io/ViT-VS/

🔬 方法详解

问题定义：视觉伺服旨在控制机器人末端执行器相对于目标物体的位姿。传统方法依赖手工设计的图像特征，虽然泛化性好，但对光照变化、遮挡等环境因素敏感。基于学习的方法虽然鲁棒性有所提升，但需要大量特定任务的数据进行训练，泛化能力受限。

核心思路：利用预训练的Vision Transformer (ViT) 提取图像的语义特征，这些特征具有较强的泛化能力，能够克服传统手工特征的局限性。通过将预训练的ViT特征与视觉伺服控制相结合，实现无需大量训练数据即可获得良好性能的视觉伺服系统。

技术框架：该方法主要包含以下几个模块：1) 图像采集模块：获取当前场景的图像；2) 特征提取模块：使用预训练的ViT提取图像的特征向量；3) 位姿估计模块：根据提取的特征向量估计机器人末端执行器与目标物体之间的相对位姿；4) 控制模块：根据估计的位姿，计算控制指令，驱动机器人运动。整个流程是一个闭环控制系统，不断迭代，直至机器人末端执行器到达目标位姿。

关键创新：该方法的核心创新在于将预训练的ViT特征引入到视觉伺服控制中。与传统方法相比，ViT特征具有更强的语义表达能力和泛化能力，能够更好地应对复杂环境。与基于学习的方法相比，该方法无需大量特定任务的训练数据，降低了训练成本。

关键设计：ViT使用在ImageNet等大型数据集上预训练的模型，以获得良好的特征提取能力。位姿估计模块可以使用不同的方法，例如，可以直接将ViT特征作为输入，训练一个回归模型来预测位姿；也可以将ViT特征与传统的视觉伺服方法相结合，例如，使用ViT特征来选择合适的图像特征点，然后使用传统的图像雅可比矩阵方法进行位姿估计。控制模块可以使用PID控制或其他控制算法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ViT-VS在无扰动场景下实现了完全收敛，在扰动场景下，相对于经典的基于图像的视觉伺服，性能提升高达31.2%。即使在不需要任务或对象特定训练的情况下，也达到了基于学习的方法的收敛速度。真实世界的实验验证了该方法在末端执行器定位、工业箱体操作和抓取未见物体方面的鲁棒性。

🎯 应用场景

该研究成果可广泛应用于工业机器人、服务机器人等领域。例如，在工业自动化中，可用于精确控制机器人的抓取、装配等操作；在服务机器人中，可用于引导机器人完成导航、物体识别等任务。该方法降低了视觉伺服系统的开发成本和部署难度，促进了机器人技术的普及。

📄 摘要（原文）

Visual servoing enables robots to precisely position their end-effector relative to a target object. While classical methods rely on hand-crafted features and thus are universally applicable without task-specific training, they often struggle with occlusions and environmental variations, whereas learning-based approaches improve robustness but typically require extensive training. We present a visual servoing approach that leverages pretrained vision transformers for semantic feature extraction, combining the advantages of both paradigms while also being able to generalize beyond the provided sample. Our approach achieves full convergence in unperturbed scenarios and surpasses classical image-based visual servoing by up to 31.2\% relative improvement in perturbed scenarios. Even the convergence rates of learning-based methods are matched despite requiring no task- or object-specific training. Real-world evaluations confirm robust performance in end-effector positioning, industrial box manipulation, and grasping of unseen objects using only a reference from the same category. Our code and simulation environment are available at: https://alessandroscherl.github.io/ViT-VS/

ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理