EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

作者: Chi Kit Ng, Long Bai, Guankun Wang, Yupeng Wang, Huxin Gao, Kun Yuan, Chenhan Jin, Tieyong Zeng, Hongliang Ren

分类: cs.RO, cs.AI

发布日期: 2025-05-21

💡 一句话要点

EndoVLA：用于内窥镜自主跟踪的双阶段视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 内窥镜机器人 自主跟踪 视觉-语言-动作模型 强化学习 双阶段训练

📋 核心要点

传统内窥镜机器人方法依赖手动调整，难以整合高层次意图，泛化性差。
EndoVLA模型通过视觉-语言-动作整合，语义适应医生提示，无需手动校准。
双阶段训练策略，先监督微调再强化微调，提升跟踪性能和零样本泛化能力。

📝 摘要（中文）

在内窥镜手术中，对异常区域的自主跟踪和环切标记的跟随能显著减轻内窥镜医师的认知负担。然而，传统的基于模型的流程对每个组件（例如，检测、运动规划）都需要手动调整，并且难以整合高层次的内窥镜意图，导致在不同场景下的泛化能力较差。视觉-语言-动作（VLA）模型通过在一个端到端框架内整合视觉感知、语言理解和运动规划，提供了一种有前景的替代方案，它可以通过语义方式适应外科医生的提示，而无需手动重新校准。尽管VLA模型具有潜力，但由于胃肠道（GI）复杂且动态的解剖环境，将VLA模型应用于机器人内窥镜检查提出了独特的挑战。为了解决这个问题，我们引入了EndoVLA，专门为GI介入中的连续体机器人设计。给定内窥镜图像和外科医生发出的跟踪提示，EndoVLA执行三个核心任务：（1）息肉跟踪，（2）异常粘膜区域的划定和跟随，以及（3）环切期间对圆形标记的遵守。为了解决数据稀缺和领域转移问题，我们提出了一种双阶段策略，包括在我们EndoVLA-Motion数据集上进行监督微调，以及使用任务感知奖励进行强化微调。我们的方法显著提高了内窥镜跟踪性能，并实现了在不同场景和复杂顺序任务中的零样本泛化。

🔬 方法详解

问题定义：论文旨在解决内窥镜手术中机器人自主跟踪的难题，包括息肉跟踪、异常粘膜区域的划定和跟随，以及环切过程中对圆形标记的遵守。现有方法依赖于手动调整的流程，难以整合高层次的内窥镜意图，导致在不同场景下的泛化能力较差。此外，胃肠道环境复杂且动态，进一步增加了自主跟踪的难度。

核心思路：论文的核心思路是利用视觉-语言-动作（VLA）模型，将视觉感知、语言理解和运动规划整合到一个端到端的框架中。通过这种方式，机器人可以根据外科医生的语言提示，自主地完成跟踪任务，而无需手动重新校准。这种设计能够更好地适应不同的场景和任务，提高泛化能力。

技术框架：EndoVLA模型采用双阶段训练策略。第一阶段，在EndoVLA-Motion数据集上进行监督微调，学习基本的视觉和运动特征。第二阶段，使用任务感知奖励进行强化微调，进一步优化模型的跟踪性能。整体流程包括：(1) 接收内窥镜图像和外科医生的语言提示；(2) VLA模型根据图像和提示生成动作指令；(3) 机器人执行动作；(4) 根据任务感知奖励，优化VLA模型。

关键创新：论文的关键创新在于提出了一个专门为内窥镜机器人设计的VLA模型，并采用双阶段训练策略来解决数据稀缺和领域转移问题。与现有方法相比，EndoVLA能够更好地理解外科医生的意图，并自主地完成跟踪任务，从而提高了手术效率和安全性。

关键设计：EndoVLA-Motion数据集包含内窥镜图像和对应的机器人动作数据。任务感知奖励函数根据机器人是否成功跟踪目标区域或遵循圆形标记来设计。具体的网络结构未知，但可以推测使用了Transformer等模型来处理视觉和语言信息，并生成动作指令。具体的损失函数未知，但监督微调阶段可能使用了交叉熵损失或均方误差损失，强化微调阶段可能使用了策略梯度算法。

🖼️ 关键图片

📊 实验亮点

论文提出的EndoVLA模型在内窥镜跟踪任务中取得了显著的性能提升，并在不同场景和复杂顺序任务中实现了零样本泛化。具体的性能数据未知，但摘要中强调了“显著提高跟踪性能”，表明该方法具有很强的实用价值。与传统方法相比，EndoVLA无需手动调整，能够更好地适应不同的手术场景。

🎯 应用场景

该研究成果可应用于多种内窥镜手术，例如息肉切除、肿瘤标记、消化道出血止血等。通过提高内窥镜机器人的自主跟踪能力，可以减轻医生的认知负担，缩短手术时间，提高手术精度和安全性。未来，该技术有望推广到其他微创手术领域，实现更智能化的手术操作。

📄 摘要（原文）

In endoscopic procedures, autonomous tracking of abnormal regions and following circumferential cutting markers can significantly reduce the cognitive burden on endoscopists. However, conventional model-based pipelines are fragile for each component (e.g., detection, motion planning) requires manual tuning and struggles to incorporate high-level endoscopic intent, leading to poor generalization across diverse scenes. Vision-Language-Action (VLA) models, which integrate visual perception, language grounding, and motion planning within an end-to-end framework, offer a promising alternative by semantically adapting to surgeon prompts without manual recalibration. Despite their potential, applying VLA models to robotic endoscopy presents unique challenges due to the complex and dynamic anatomical environments of the gastrointestinal (GI) tract. To address this, we introduce EndoVLA, designed specifically for continuum robots in GI interventions. Given endoscopic images and surgeon-issued tracking prompts, EndoVLA performs three core tasks: (1) polyp tracking, (2) delineation and following of abnormal mucosal regions, and (3) adherence to circular markers during circumferential cutting. To tackle data scarcity and domain shifts, we propose a dual-phase strategy comprising supervised fine-tuning on our EndoVLA-Motion dataset and reinforcement fine-tuning with task-aware rewards. Our approach significantly improves tracking performance in endoscopy and enables zero-shot generalization in diverse scenes and complex sequential tasks.

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理