Did you just see that? Arbitrary view synthesis for egocentric replay of operating room workflows from ambient sensors
作者: Han Zhang, Lalithkumar Seenivasan, Jose L. Porras, Roger D. Soberanis-Mukul, Hao Ding, Hongchao Shu, Benjamin D. Killeen, Ankita Ghosh, Lonny Yarmus, Masaru Ishii, Angela Christine Argento, Mathias Unberath
分类: cs.CV, cs.AI
发布日期: 2025-10-06
💡 一句话要点
EgoSurg:利用环境传感器,为手术室工作流程重建任意视角的自我中心回放。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 神经渲染 视图合成 扩散模型 手术室 自我中心视角 3D重建 医学影像
📋 核心要点
- 现有手术观察依赖固定视角或回忆,缺乏对手术决策至关重要的自我中心视角记录。
- EgoSurg结合几何驱动神经渲染和扩散模型视图增强,从固定摄像头重建任意视角的自我中心回放。
- 实验证明,EgoSurg能以高视觉质量和保真度重建个体视野和任意视点,实现沉浸式手术数据分析。
📝 摘要(中文)
本研究提出EgoSurg,这是一个首创的框架,旨在直接从墙壁安装的固定摄像头视频中,为任何手术室(OR)工作人员重建动态的、以自我为中心的回放,无需干预临床工作流程。EgoSurg将几何驱动的神经渲染与基于扩散的视图增强相结合,从而能够以高视觉保真度合成任意和以自我为中心的视点。在跨多地点手术案例和对照研究的评估中,EgoSurg以高视觉质量和保真度重建了特定人员的视野和任意视点。通过将现有的手术室摄像头基础设施转变为可导航的动态3D记录,EgoSurg为沉浸式手术数据科学奠定了新的基础,使手术实践能够从各个角度进行可视化、体验和分析。
🔬 方法详解
问题定义:现有手术室观察方法主要依赖于固定摄像头或术后回忆,无法准确捕捉手术团队成员在手术过程中所见的真实场景,即自我中心视角。这种缺失限制了对手术决策过程的深入理解,阻碍了手术安全、培训和工作流程优化。
核心思路:EgoSurg的核心思路是利用手术室中已有的固定摄像头视频,通过神经渲染技术重建手术场景的3D模型,并结合扩散模型进行视图增强,从而合成任意视角的、特别是自我中心视角的图像。这样可以在不干扰手术流程的前提下,还原手术人员的视觉体验。
技术框架:EgoSurg框架包含以下主要模块:1) 利用多视角几何信息重建手术室场景的3D模型;2) 基于神经渲染技术,从3D模型中生成目标视角的图像;3) 使用基于扩散模型的视图增强模块,提高合成图像的视觉质量和真实感。整个流程无需额外的人工干预,可以自动地从现有视频数据中生成自我中心视角的回放。
关键创新:EgoSurg的关键创新在于将几何驱动的神经渲染与扩散模型相结合,实现了高质量的任意视角合成。与传统的基于图像的渲染方法相比,EgoSurg利用3D几何信息提高了渲染的准确性和一致性。同时,扩散模型的使用有效提升了合成图像的细节和真实感,克服了神经渲染中常见的模糊和伪影问题。
关键设计:EgoSurg的具体技术细节包括:1) 使用多视角立体视觉算法重建手术室场景的3D点云模型;2) 采用神经辐射场(NeRF)作为神经渲染的核心技术,学习场景的辐射场表示;3) 使用条件扩散模型,以神经渲染的输出作为条件,生成高分辨率、高质量的图像。损失函数的设计包括渲染损失、感知损失和对抗损失,以保证合成图像的准确性、真实感和视觉质量。
🖼️ 关键图片
📊 实验亮点
EgoSurg在多地点手术案例和对照研究中进行了评估,结果表明,该方法能够以高视觉质量和保真度重建特定人员的视野和任意视点。具体而言,EgoSurg合成的图像在视觉质量指标(如PSNR和SSIM)上显著优于传统的基于图像的渲染方法。此外,用户研究表明,医生和护士对EgoSurg提供的自我中心视角回放给予了高度评价,认为其对手术培训和安全分析具有重要价值。
🎯 应用场景
EgoSurg具有广泛的应用前景,可用于手术培训、手术安全分析、工作流程优化等方面。通过提供沉浸式的自我中心视角回放,EgoSurg能够帮助医生和护士回顾手术过程,分析决策过程,提高手术技能。此外,EgoSurg还可以用于开发智能手术室系统,实时监测手术过程,提供辅助决策支持。
📄 摘要(原文)
Observing surgical practice has historically relied on fixed vantage points or recollections, leaving the egocentric visual perspectives that guide clinical decisions undocumented. Fixed-camera video can capture surgical workflows at the room-scale, but cannot reconstruct what each team member actually saw. Thus, these videos only provide limited insights into how decisions that affect surgical safety, training, and workflow optimization are made. Here we introduce EgoSurg, the first framework to reconstruct the dynamic, egocentric replays for any operating room (OR) staff directly from wall-mounted fixed-camera video, and thus, without intervention to clinical workflow. EgoSurg couples geometry-driven neural rendering with diffusion-based view enhancement, enabling high-visual fidelity synthesis of arbitrary and egocentric viewpoints at any moment. In evaluation across multi-site surgical cases and controlled studies, EgoSurg reconstructs person-specific visual fields and arbitrary viewpoints with high visual quality and fidelity. By transforming existing OR camera infrastructure into a navigable dynamic 3D record, EgoSurg establishes a new foundation for immersive surgical data science, enabling surgical practice to be visualized, experienced, and analyzed from every angle.