See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming
作者: Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova
分类: cs.RO, cs.CV
发布日期: 2026-03-09
备注: 8 pages, 11 figures
💡 一句话要点
提出基于视觉的交互式机器人技能编程框架,实现条件分支和异常检测。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人技能编程 视觉引导 条件分支 异常检测 交互式学习 手眼视觉 任务图 灵巧操作
📋 核心要点
- 现有机器人示教框架难以应对真实世界的多变性,条件任务图虽然表达能力强,但需要可靠的感知信息进行在线分支选择。
- See & Switch框架利用手眼相机图像,通过视觉Switcher选择后续技能部分,并检测异常情况,实现条件分支和异常检测。
- 实验结果表明,该方法在灵巧操作任务中,分支选择和异常检测的准确率分别达到90.7%和87.9%,证明了其有效性。
📝 摘要(中文)
本文提出了一种名为See & Switch的交互式教学与执行框架,用于机器人技能编程。该框架将任务表示为技能部分的扩展图,并通过决策状态(DS)连接,从而在回放期间实现条件分支。与依赖手动分支或低维信号的方法不同,我们的基于视觉的Switcher使用手眼相机图像(高维)来选择后续技能部分,并检测需要新演示的异常上下文。我们集成了运动学示教、操纵杆控制和手势,并通过输入模态抽象层,使我们的方法与教学模态无关,从而实现高效的现场恢复演示。该系统在三个具有挑战性的灵巧操作任务中进行了验证。我们在不同的条件下评估了我们的方法,并对8名参与者进行了用户研究。结果表明,该方法能够为新手用户可靠地执行分支选择和异常检测,在576次真实机器人实验中分别达到90.7%和87.9%的准确率。我们提供了所有代码和数据,以便重现我们的实验。
🔬 方法详解
问题定义:现有的机器人示教方法在处理真实世界复杂环境时,难以适应任务的多样性和不确定性。条件任务图是一种有效的任务表示方法,但其依赖于可靠的感知信息来进行在线分支选择。传统方法通常依赖于手动分支或低维信号(如关节角度),难以应对复杂视觉场景,且泛化能力有限。因此,如何利用高维视觉信息实现鲁棒的分支选择和异常检测是亟待解决的问题。
核心思路:本文的核心思路是利用手眼相机获取的视觉信息,训练一个视觉Switcher,该Switcher能够根据当前视觉状态选择合适的后续技能部分,并检测超出训练分布的异常情况。通过将任务分解为技能部分,并使用决策状态连接这些部分,可以构建一个可扩展的任务图。视觉Switcher充当了任务图中的决策节点,根据视觉输入动态地选择执行路径。
技术框架:See & Switch框架包含以下几个主要模块:1) 运动学示教模块,用于记录机器人的运动轨迹;2) 输入模态抽象层,支持多种输入方式(如运动学示教、操纵杆控制、手势);3) 视觉Switcher,基于手眼相机图像进行分支选择和异常检测;4) 任务图表示模块,将任务表示为技能部分的扩展图。整体流程如下:首先,用户通过示教或其他方式定义技能部分;然后,系统构建任务图,并在决策状态处使用视觉Switcher进行分支选择;最后,机器人根据任务图执行任务,并在遇到异常情况时提示用户进行干预。
关键创新:该方法最重要的技术创新点在于使用高维视觉信息进行分支选择和异常检测。与传统方法相比,该方法能够更好地应对复杂视觉场景,并具有更强的泛化能力。此外,该方法还提出了一个输入模态抽象层,使得系统可以支持多种输入方式,提高了交互的灵活性。
关键设计:视觉Switcher可以使用各种图像分类或异常检测算法实现。论文中使用的具体算法未知,但可以推测使用了卷积神经网络(CNN)提取图像特征,并使用分类器或异常检测器进行决策。损失函数的设计需要考虑分支选择的准确性和异常检测的灵敏度。具体参数设置和网络结构在论文中可能有所描述,但根据提供的信息无法得知。
📊 实验亮点
实验结果表明,该方法在三个具有挑战性的灵巧操作任务中表现出色,分支选择和异常检测的准确率分别达到90.7%和87.9%。该结果是在576次真实机器人实验中获得的,证明了该方法在实际应用中的可行性和有效性。此外,用户研究表明,新手用户也能轻松地使用该系统进行机器人编程。
🎯 应用场景
该研究成果可应用于各种需要机器人进行灵巧操作的场景,例如工业自动化、医疗辅助、家庭服务等。通过视觉引导的技能编程,可以降低机器人编程的门槛,使得非专业人员也能轻松地训练机器人完成复杂任务。此外,该方法还可以提高机器人的鲁棒性和适应性,使其能够更好地应对真实世界中的各种挑战。
📄 摘要(原文)
Programming robots by demonstration (PbD) is an intuitive concept, but scaling it to real-world variability remains a challenge for most current teaching frameworks. Conditional task graphs are very expressive and can be defined incrementally, which fits very well with the PbD idea. However, acting using conditional task graphs requires reliable perception-grounded online branch selection. In this paper, we present See & Switch, an interactive teaching-and-execution framework that represents tasks as user-extendable graphs of skill parts connected via decision states (DS), enabling conditional branching during replay. Unlike prior approaches that rely on manual branching or low-dimensional signals (e.g., proprioception), our vision-based Switcher uses eye-in-hand images (high-dimensional) to select among competing successor skill parts and to detect out-of-distribution contexts that require new demonstrations. We integrate kinesthetic teaching, joystick control, and hand gestures via an input-modality-abstraction layer and demonstrate that our proposed method is teaching modality-independent, enabling efficient in-situ recovery demonstrations. The system is validated in experiments on three challenging dexterous manipulation tasks. We evaluate our method under diverse conditions and furthermore conduct user studies with 8 participants. We show that the proposed method reliably performs branch selection and anomaly detection for novice users, achieving 90.7 % and 87.9 % accuracy, respectively, across 576 real-robot rollouts. We provide all code and data required to reproduce our experiments at http://imitrob.ciirc.cvut.cz/publications/seeandswitch.