Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation

作者: Jian Jiang, Chenxi Lin, Yiming Gu, Zengyi Qin, Zhitao Zeng, Kun Yuan, Yonghao Long, Xiang Xia, Cheng Yuan, Yuqi Wang, Zijie Yue, Kunyi Yang, Yuting Zhang, Zhu Zhuo, Dian Qin, Xin Wang, NG Chi Fai, Brian Anthony, Daguang Xu, Guy Rosman, Ozanan Meireles, Zizhen Zhang, Nicolas Padoy, Hesheng Wang, Qi Dou, Yueming Jin, Yutong Ban

分类: cs.CV

发布日期: 2026-03-12

💡 一句话要点

提出Surg-R1以解决外科决策支持中的可解释性问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 外科决策支持 可解释性 分层推理 视觉-语言模型 多中心验证 推理数据集 临床应用

📋 核心要点

现有外科视觉-语言模型缺乏推理链，导致预测结果难以验证，影响临床应用。
Surg-R1通过分层推理的方式，将外科解释分解为多个层次，增强了模型的可解释性和准确性。
在多中心验证中，Surg-R1在多个任务上表现优异，Arena Score达64.9%，较最强基线提升15.2个百分点。

📝 摘要（中文）

外科场景理解不仅需要准确的预测，还需要可解释的推理，以便外科医生能够根据临床专业知识进行验证。然而，现有的外科视觉-语言模型生成的预测缺乏推理链，而通用推理模型在没有领域特定知识的情况下无法处理组合外科任务。本文提出了Surg-R1，这是一种外科视觉-语言模型，通过分层推理填补了这一空白。我们的研究贡献包括：1) 将外科解释分解为感知基础、关系理解和上下文推理的三层推理层次；2) 创建了最大的外科推理数据集，包含320,000对推理样本；3) 采用四阶段训练流程，从监督微调到组相对策略优化和迭代自我改进。对SurgBench的评估显示，Surg-R1在公共基准测试中取得了最高的Arena Score（64.9%），显著优于其他模型。

🔬 方法详解

问题定义：本研究旨在解决外科决策支持中缺乏可解释性和推理链的问题。现有方法在处理复杂外科任务时，往往无法提供足够的领域特定知识，导致预测结果难以验证。

核心思路：Surg-R1通过建立三层推理层次，分别为感知基础、关系理解和上下文推理，来增强模型的推理能力和可解释性。这种设计使得外科医生能够更好地理解模型的决策过程。

技术框架：Surg-R1的整体架构包括四个主要阶段：首先进行监督微调，然后通过组相对策略优化提升模型性能，最后进行迭代自我改进，以不断优化推理能力。

关键创新：本研究的最大创新在于构建了一个三层推理层次和320,000对推理样本的数据集，显著提升了外科视觉-语言模型的推理能力和可解释性。这与现有方法的单一推理链设计形成鲜明对比。

关键设计：在训练过程中，采用了特定的损失函数和优化策略，以确保模型在不同推理层次上都能有效学习。此外，数据集的多样性和规模也为模型的泛化能力提供了保障。

📊 实验亮点

Surg-R1在SurgBench的评估中表现突出，公共基准测试中获得64.9%的Arena Score，显著高于Gemini 3.0 Pro的46.1%和GPT-5.1的37.9%。在多个外科任务中，Surg-R1的表现均优于现有的专有推理模型和外科视觉-语言模型，显示出15.2个百分点的提升。

🎯 应用场景

Surg-R1的研究成果在外科手术决策支持系统中具有广泛的应用潜力。通过提供可解释的推理链，外科医生可以更好地理解模型的决策过程，从而提高手术安全性和效率。未来，该模型还可以扩展到其他医疗领域，推动智能医疗的发展。

📄 摘要（原文）

Surgical scene understanding demands not only accurate predictions but also interpretable reasoning that surgeons can verify against clinical expertise. However, existing surgical vision-language models generate predictions without reasoning chains, and general-purpose reasoning models fail on compositional surgical tasks without domain-specific knowledge. We present Surg-R1, a surgical Vision-Language Model that addresses this gap through hierarchical reasoning trained via a four-stage pipeline. Our approach introduces three key contributions: (1) a three-level reasoning hierarchy decomposing surgical interpretation into perceptual grounding, relational understanding, and contextual reasoning; (2) the largest surgical chain-of-thought dataset with 320,000 reasoning pairs; and (3) a four-stage training pipeline progressing from supervised fine-tuning to group relative policy optimization and iterative self-improvement. Evaluation on SurgBench, comprising six public benchmarks and six multi-center external validation datasets from five institutions, demonstrates that Surg-R1 achieves the highest Arena Score (64.9%) on public benchmarks versus Gemini 3.0 Pro (46.1%) and GPT-5.1 (37.9%), outperforming both proprietary reasoning models and specialized surgical VLMs on the majority of tasks spanning instrument localization, triplet recognition, phase recognition, action recognition, and critical view of safety assessment, with a 15.2 percentage point improvement over the strongest surgical baseline on external validation.

Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理