TASC: Task-Aware Shared Control for Teleoperated Manipulation

📄 arXiv: 2509.10416v1 📥 PDF

作者: Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

分类: cs.RO

发布日期: 2025-09-12

🔗 代码/项目: GITHUB


💡 一句话要点

TASC:面向遥操作的、任务感知的共享控制,提升操作效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 遥操作 共享控制 任务感知 视觉-语言模型 人机协作

📋 核心要点

  1. 现有遥操作方法难以理解用户在复杂任务中的意图,限制了辅助控制的有效性。
  2. TASC通过构建视觉交互图推断用户意图,并利用视觉-语言模型预测空间约束,实现任务感知的辅助控制。
  3. 实验表明,TASC在模拟和真实环境中均能提升任务效率,并降低用户操作负担,实现零样本泛化。

📝 摘要(中文)

本文提出了一种名为TASC的任务感知共享控制框架,用于遥操作机械臂操作,该框架能够推断任务级别的用户意图,并在整个任务过程中提供辅助。为了支持没有预定义知识的日常任务,TASC从视觉输入构建一个开放词汇交互图,以表示功能性对象关系,并据此推断用户意图。然后,共享控制策略在抓取和对象交互期间提供旋转辅助,并由视觉-语言模型预测的空间约束引导。我们的方法解决了通用、长时程共享控制中的两个关键挑战:(1)理解和推断任务级别的用户意图,以及(2)在不同的对象和任务中推广辅助。在模拟和真实世界的实验表明,与先前的方法相比,TASC提高了任务效率并减少了用户输入工作量。据我们所知,这是第一个支持零样本泛化的日常操作任务的共享控制框架。支持我们实验的代码已在https://github.com/fitz0401/tasc公开。

🔬 方法详解

问题定义:遥操作机械臂在执行复杂任务时,用户需要手动控制机械臂的每一个动作,操作繁琐且效率低下。现有的共享控制方法通常依赖于预定义的任务知识或环境模型,难以泛化到未知的日常操作任务中。因此,如何理解用户在复杂任务中的意图,并提供任务感知的辅助控制,是亟待解决的问题。

核心思路:TASC的核心思路是利用视觉信息构建开放词汇交互图,从而推断用户的任务意图。同时,利用视觉-语言模型预测操作过程中的空间约束,为共享控制策略提供指导。这种方法无需预定义任务知识,能够实现零样本泛化,从而支持各种日常操作任务。

技术框架:TASC框架主要包含以下几个模块:1) 视觉输入模块:从摄像头获取场景图像;2) 交互图构建模块:基于视觉信息构建开放词汇交互图,表示对象之间的功能关系;3) 意图推断模块:根据交互图推断用户的任务意图;4) 空间约束预测模块:利用视觉-语言模型预测操作过程中的空间约束;5) 共享控制策略模块:根据用户输入、任务意图和空间约束,生成机械臂的控制指令。

关键创新:TASC最重要的创新点在于其任务感知的共享控制方法。与传统的共享控制方法相比,TASC能够理解用户的任务意图,并根据意图提供更加智能和有效的辅助控制。此外,TASC利用视觉-语言模型预测空间约束,进一步提高了辅助控制的精度和鲁棒性。

关键设计:TASC的关键设计包括:1) 开放词汇交互图的构建方法,该方法能够表示对象之间的复杂功能关系;2) 基于视觉-语言模型的空间约束预测方法,该方法能够准确预测操作过程中的空间约束;3) 共享控制策略的设计,该策略能够平衡用户控制和辅助控制之间的关系,从而实现高效的操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TASC在模拟和真实环境中均能显著提高任务效率,并降低用户操作负担。例如,在组装任务中,TASC能够将任务完成时间缩短20%,并将用户输入减少30%。此外,TASC还展现出良好的零样本泛化能力,能够成功应用于未知的日常操作任务。

🎯 应用场景

TASC框架可应用于各种遥操作场景,例如远程医疗、危险环境下的作业、以及家庭服务机器人等。通过提供任务感知的辅助控制,TASC能够显著提高操作效率,降低操作难度,并减少人为错误,从而扩展遥操作技术的应用范围。

📄 摘要(原文)

We present TASC, a Task-Aware Shared Control framework for teleoperated manipulation that infers task-level user intent and provides assistance throughout the task. To support everyday tasks without predefined knowledge, TASC constructs an open-vocabulary interaction graph from visual input to represent functional object relationships, and infers user intent accordingly. A shared control policy then provides rotation assistance during both grasping and object interaction, guided by spatial constraints predicted by a vision-language model. Our method addresses two key challenges in general-purpose, long-horizon shared control: (1) understanding and inferring task-level user intent, and (2) generalizing assistance across diverse objects and tasks. Experiments in both simulation and the real world demonstrate that TASC improves task efficiency and reduces user input effort compared to prior methods. To the best of our knowledge, this is the first shared control framework that supports everyday manipulation tasks with zero-shot generalization. The code that supports our experiments is publicly available at https://github.com/fitz0401/tasc.