dARt Vinci: Egocentric Data Collection for Surgical Robot Learning at Scale

作者: Yihao Liu, Yu-Chun Ku, Jiaming Zhang, Hao Ding, Peter Kazanzides, Mehran Armand

分类: cs.RO, cs.AI

发布日期: 2025-03-07

备注: 8 pages, 7 figures

💡 一句话要点

dARt Vinci：用于大规模外科机器人学习的以自我为中心的数据采集平台

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 外科机器人 机器人学习 增强现实 数据采集 模拟环境

📋 核心要点

外科机器人学习面临数据稀缺难题，高质量数据获取困难，限制了强化学习和模仿学习的应用。
dARt Vinci平台利用AR手部跟踪和高保真物理引擎，在模拟环境中高效采集外科手术数据。
实验表明，dARt Vinci平台显著提升数据吞吐量，缩短实验时间，并大幅减少数据存储需求。

📝 摘要（中文）

数据稀缺一直是机器人学习领域的问题。尤其是在外科手术等安全关键领域，获取高质量数据尤其困难。这给研究人员利用强化学习和模仿学习的最新进展带来了挑战，这些进展极大地提高了泛化能力，并使机器人能够自主执行任务。我们介绍了dARt Vinci，一个用于外科手术环境中机器人学习的可扩展数据收集平台。该系统使用增强现实（AR）手部跟踪和高保真物理引擎来捕捉原始外科手术任务中的细微动作。通过消除对物理机器人设置的需求，并在时间、空间和硬件资源（如多视角传感器和执行器）方面提供灵活性，专门的模拟是一种可行的替代方案。同时，AR允许机器人数据收集更加以自我为中心，并由其身体跟踪和内容叠加功能提供支持。我们的用户研究证实了所提出的系统的效率和可用性，我们在该研究中使用广泛使用的原始任务来训练达芬奇外科手术机器人的远程操作。与真实机器人设置相比，所有任务的数据吞吐量平均提高了41%。总实验时间平均减少了10%。任务负荷调查中的时间需求得到了改善。这些收益具有统计学意义。此外，收集的数据大小减少了400多倍，需要的存储空间大大减少，同时实现了两倍的频率。

🔬 方法详解

问题定义：外科机器人学习领域面临数据稀缺的挑战，尤其是在需要大量高质量数据驱动的强化学习和模仿学习方法中。现有的真实机器人数据采集成本高昂、耗时，且难以覆盖各种操作场景和故障情况。这限制了算法的泛化能力和鲁棒性。

核心思路：论文的核心思路是利用增强现实（AR）技术和高保真物理引擎构建一个可扩展的模拟数据采集平台。通过AR手部跟踪，用户可以在虚拟环境中进行手术操作，系统记录操作数据。这种方法无需真实的机器人硬件，降低了数据采集的成本和难度，并提供了更大的灵活性。

技术框架：dARt Vinci平台主要包含以下几个模块：1) AR手部跟踪模块，负责捕捉用户的手部动作；2) 高保真物理引擎，模拟手术环境和器械的物理特性；3) 数据记录模块，记录用户的手部动作、器械状态等数据；4) 数据处理模块，对采集到的数据进行清洗、标注和格式转换。整个流程是用户佩戴AR设备，在虚拟环境中进行手术操作，系统实时记录数据，并进行后续处理。

关键创新：该论文的关键创新在于将AR技术与高保真物理引擎相结合，构建了一个高效、低成本的机器人学习数据采集平台。与传统的真实机器人数据采集方法相比，该方法具有更高的灵活性和可扩展性，能够更容易地生成大规模、多样化的数据集。此外，AR技术使得数据采集过程更加以自我为中心，能够更好地捕捉操作者的意图和策略。

关键设计：在AR手部跟踪方面，使用了现有的成熟算法，并针对手术场景进行了优化。在高保真物理引擎方面，选择了能够精确模拟手术器械和组织相互作用的引擎。在数据记录方面，采用了高频率的数据采样，以捕捉细微的操作动作。在数据处理方面，设计了自动化的数据清洗和标注流程，以提高数据质量和效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与真实机器人设置相比，dARt Vinci平台在所有任务中的数据吞吐量平均提高了41%，总实验时间平均减少了10%，任务负荷调查中的时间需求也得到了改善，这些提升具有统计学意义。此外，收集的数据大小减少了400多倍，显著降低了存储需求，同时实现了两倍的数据采集频率。

🎯 应用场景

dARt Vinci平台可应用于外科机器人技能学习、远程手术训练、手术规划和辅助等领域。通过大规模数据训练，可以提升外科机器人的自主操作能力，降低手术风险，提高手术效率。该平台还可用于培训外科医生，提供更安全、更经济的训练环境。未来，该技术有望推广到其他机器人应用领域，如工业机器人、服务机器人等。

📄 摘要（原文）

Data scarcity has long been an issue in the robot learning community. Particularly, in safety-critical domains like surgical applications, obtaining high-quality data can be especially difficult. It poses challenges to researchers seeking to exploit recent advancements in reinforcement learning and imitation learning, which have greatly improved generalizability and enabled robots to conduct tasks autonomously. We introduce dARt Vinci, a scalable data collection platform for robot learning in surgical settings. The system uses Augmented Reality (AR) hand tracking and a high-fidelity physics engine to capture subtle maneuvers in primitive surgical tasks: By eliminating the need for a physical robot setup and providing flexibility in terms of time, space, and hardware resources-such as multiview sensors and actuators-specialized simulation is a viable alternative. At the same time, AR allows the robot data collection to be more egocentric, supported by its body tracking and content overlaying capabilities. Our user study confirms the proposed system's efficiency and usability, where we use widely-used primitive tasks for training teleoperation with da Vinci surgical robots. Data throughput improves across all tasks compared to real robot settings by 41% on average. The total experiment time is reduced by an average of 10%. The temporal demand in the task load survey is improved. These gains are statistically significant. Additionally, the collected data is over 400 times smaller in size, requiring far less storage while achieving double the frequency.

dARt Vinci: Egocentric Data Collection for Surgical Robot Learning at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理