Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

📄 arXiv: 2602.09407v1 📥 PDF

作者: Yan Luo, Advaith Ravishankar, Serena Liu, Yutong Yang, Mengyu Wang

分类: cs.CV

发布日期: 2026-02-10


💡 一句话要点

对比评估单切片医学影像三维重建模型,揭示几何先验迁移的局限性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学影像 三维重建 单切片 深度学习 几何先验

📋 核心要点

  1. 现有方法难以有效利用自然图像的几何先验进行单切片医学影像的三维重建,导致重建质量受限。
  2. 论文提出对现有图像到3D模型在医学影像上进行零样本评估,分析其几何先验迁移能力。
  3. 实验表明,现有模型在医学影像重建中表现不佳,深度模糊性是主要瓶颈,SAM3D表现相对较好。

📝 摘要(中文)

解剖结构的3D理解对于诊断和治疗计划至关重要,但容积成像成本高昂且等待时间长。图像到3D的基础模型可以通过从2D模态重建3D数据来解决这个问题。目前的基础模型在自然图像分布上训练,通过利用像素间的几何先验从单张图像重建自然物体。然而,这些学习到的几何先验是否能迁移到医学数据尚不清楚。本研究对五种最先进的图像到3D模型:SAM3D、Hunyuan3D-2.1、Direct3D、Hi3DGen和TripoSG进行了受控的零样本基准测试,用于单切片医学图像到3D重建。这些模型在涵盖解剖和病理结构的六个医学数据集和两个自然数据集上进行评估,使用基于体素的指标和点云距离指标。在医学数据集上,所有模型的基于体素的重叠仍然适中,这与从单个切片推断体积时的深度重建失败模式一致。相比之下,全局距离指标显示了方法之间的更多差异:SAM3D实现了与真实医学3D数据最强的整体拓扑相似性,而其他模型更容易过度简化重建。我们的结果量化了单切片医学重建的局限性,并突出了由2D医学数据的平面性质引起的深度模糊性,从而推动了多视图图像到3D重建,以实现可靠的医学3D推断。

🔬 方法详解

问题定义:论文旨在解决单切片医学影像三维重建问题。现有方法,如基于自然图像训练的图像到3D模型,在医学影像上表现不佳,因为医学影像的几何结构与自然图像存在差异,导致几何先验无法有效迁移。现有方法缺乏对医学影像三维重建的针对性评估。

核心思路:核心思路是通过对现有图像到3D模型在医学影像上进行零样本评估,来量化其几何先验的迁移能力。通过对比不同模型在医学影像和自然图像上的表现,揭示医学影像三维重建的难点和挑战,为未来研究提供指导。

技术框架:整体框架包括以下几个步骤:1) 选择五种代表性的图像到3D模型(SAM3D、Hunyuan3D-2.1、Direct3D、Hi3DGen和TripoSG);2) 收集六个医学数据集和两个自然数据集;3) 使用选定的模型对数据集进行单切片三维重建;4) 使用基于体素的指标(如Dice系数)和点云距离指标(如Chamfer Distance)评估重建结果;5) 对比不同模型在不同数据集上的表现,分析其几何先验的迁移能力。

关键创新:关键创新在于对现有图像到3D模型在医学影像上的零样本评估。以往的研究主要集中在自然图像的三维重建,缺乏对医学影像的针对性研究。通过对比不同模型在医学影像和自然图像上的表现,揭示了医学影像三维重建的特殊性,为未来研究提供了新的视角。

关键设计:论文的关键设计包括:1) 选择具有代表性的图像到3D模型,涵盖了不同的架构和训练策略;2) 收集多样化的医学数据集,涵盖了不同的解剖结构和病理结构;3) 使用多种评估指标,从不同角度评估重建结果;4) 对比不同模型在不同数据集上的表现,分析其几何先验的迁移能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有图像到3D模型在医学影像上的表现普遍不佳,基于体素的重叠度较低。SAM3D在拓扑相似性方面表现相对较好,但仍存在改进空间。这些结果量化了单切片医学重建的局限性,并突出了深度模糊性问题。

🎯 应用场景

该研究成果可应用于医学影像分析、辅助诊断和手术规划等领域。通过单切片重建三维结构,可以减少成像时间和成本,提高诊断效率。未来的研究可以进一步探索多视图图像到3D重建,以提高重建精度和可靠性,从而更好地服务于临床应用。

📄 摘要(原文)

A 3D understanding of anatomy is central to diagnosis and treatment planning, yet volumetric imaging remains costly with long wait times. Image-to-3D foundations models can solve this issue by reconstructing 3D data from 2D modalites. Current foundation models are trained on natural image distributions to reconstruct naturalistic objects from a single image by leveraging geometric priors across pixels. However, it is unclear whether these learned geometric priors transfer to medical data. In this study, we present a controlled zero-shot benchmark of single slice medical image-to-3D reconstruction across five state-of-the-art image-to-3D models: SAM3D, Hunyuan3D-2.1, Direct3D, Hi3DGen, and TripoSG. These are evaluated across six medical datasets spanning anatomical and pathological structures and two natrual datasets, using voxel based metrics and point cloud distance metrics. Across medical datasets, voxel based overlap remains moderate for all models, consistent with a depth reconstruction failure mode when inferring volume from a single slice. In contrast, global distance metrics show more separation between methods: SAM3D achieves the strongest overall topological similarity to ground truth medical 3D data, while alternative models are more prone to over-simplication of reconstruction. Our results quantify the limits of single-slice medical reconstruction and highlight depth ambiguity caused by the planar nature of 2D medical data, motivating multi-view image-to-3D reconstruction to enable reliable medical 3D inference.