A Dual-Feature Extractor Framework for Accurate Back Depth and Spine Morphology Estimation from Monocular RGB Images

📄 arXiv: 2507.22691v1 📥 PDF

作者: Yuxin Wei, Yue Zhang, Moxin Zhao, Chang Shi, Jason P. Y. Cheung, Teng Zhang, Nan Meng

分类: eess.IV, cs.CV

发布日期: 2025-07-30


💡 一句话要点

提出双特征提取框架GAMA-Net,用于单目RGB图像脊柱形态精准评估

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 脊柱侧弯评估 深度估计 单目图像 双特征提取 多尺度特征学习 注意力机制 医学图像分析

📋 核心要点

  1. 现有AIS评估主要依赖X射线,存在辐射暴露和可及性差等问题,限制了其应用。
  2. 论文提出双特征提取框架GAMA-Net,从RGB图像中提取深度信息,结合表面信息进行脊柱形态评估。
  3. 实验结果表明,该方法在深度估计和脊柱形态估计方面均取得了显著的准确性提升,性能优异。

📝 摘要(中文)

本研究针对青少年特发性脊柱侧弯(AIS)评估中X射线辐射和可及性限制问题,提出了一种新的解决方案,即利用RGB图像分析脊柱形态。为克服RGB图像易受环境因素影响的缺点,论文提出了一种新颖的流程,用于精确估计裸背的深度信息,并结合深度和表面信息来估计脊柱形态。该流程设计了一个自适应多尺度特征学习网络GAMA-Net,利用双编码器提取patch级别和全局特征,并通过Patch-Based Hybrid Attention (PBHA)模块进行交互,自适应多尺度特征融合(AMFF)模块用于在解码器中动态融合信息。深度估计模型在三个评估指标上取得了显著的准确性,得分分别接近78.2%、93.6%和97.5%。通过整合表面和深度信息进行脊柱形态估计,脊柱曲线生成的准确率高达97%。

🔬 方法详解

问题定义:现有脊柱侧弯评估方法主要依赖X射线,但X射线存在辐射风险,且在偏远地区可及性有限。利用RGB图像进行脊柱形态分析面临光照等环境因素干扰,模型稳定性和泛化性较差。因此,需要一种更安全、更可靠的方法,从RGB图像中准确估计脊柱形态。

核心思路:论文的核心思路是利用深度信息来弥补2D图像的不足。通过从RGB图像中估计裸背的深度信息,并将深度信息与表面信息相结合,可以更准确地估计脊柱形态,从而提高评估的准确性和鲁棒性。

技术框架:该框架包含两个主要部分:深度估计和脊柱形态估计。首先,使用GAMA-Net从RGB图像中估计深度信息。GAMA-Net采用双编码器结构,分别提取patch级别和全局特征,并通过PBHA模块进行特征交互。然后,使用AMFF模块在解码器中动态融合多尺度特征。最后,将估计的深度信息与表面信息相结合,用于脊柱形态估计。

关键创新:GAMA-Net是该论文的关键创新点。它是一种自适应多尺度特征学习网络,能够精确捕捉背部表面的细微深度变化。双编码器结构和PBHA模块的设计使得网络能够同时关注局部细节和全局上下文信息,从而提高深度估计的准确性。AMFF模块则能够动态地融合不同尺度的特征,进一步提升性能。

关键设计:GAMA-Net采用了双编码器结构,分别提取patch级别和全局特征。PBHA模块用于在patch级别上进行混合注意力机制,增强特征表达能力。AMFF模块则根据特征的重要性动态地融合不同尺度的特征。损失函数未知,但可能包含深度回归损失和正则化项。

📊 实验亮点

该论文提出的GAMA-Net在深度估计方面表现出色,在三个评估指标上分别取得了接近78.2%、93.6%和97.5%的准确率。通过整合深度和表面信息,脊柱形态估计的准确率高达97%,显著优于仅使用表面信息的方法。这些结果表明,该方法在脊柱形态评估方面具有很高的潜力。

🎯 应用场景

该研究成果可应用于脊柱侧弯的早期筛查和诊断,尤其是在缺乏X射线设备的偏远地区。通过使用普通RGB相机,可以实现低成本、无辐射的脊柱形态评估,有助于提高诊断效率和患者依从性。未来,该技术有望集成到移动医疗应用中,实现远程脊柱健康监测。

📄 摘要(原文)

Scoliosis is a prevalent condition that impacts both physical health and appearance, with adolescent idiopathic scoliosis (AIS) being the most common form. Currently, the main AIS assessment tool, X-rays, poses significant limitations, including radiation exposure and limited accessibility in poor and remote areas. To address this problem, the current solutions are using RGB images to analyze spine morphology. However, RGB images are highly susceptible to environmental factors, such as lighting conditions, compromising model stability and generalizability. Therefore, in this study, we propose a novel pipeline to accurately estimate the depth information of the unclothed back, compensating for the limitations of 2D information, and then estimate spine morphology by integrating both depth and surface information. To capture the subtle depth variations of the back surface with precision, we design an adaptive multiscale feature learning network named Grid-Aware Multiscale Adaptive Network (GAMA-Net). This model uses dual encoders to extract both patch-level and global features, which are then interacted by the Patch-Based Hybrid Attention (PBHA) module. The Adaptive Multiscale Feature Fusion (AMFF) module is used to dynamically fuse information in the decoder. As a result, our depth estimation model achieves remarkable accuracy across three different evaluation metrics, with scores of nearly 78.2%, 93.6%, and 97.5%, respectively. To further validate the effectiveness of the predicted depth, we integrate both surface and depth information for spine morphology estimation. This integrated approach enhances the accuracy of spine curve generation, achieving an impressive performance of up to 97%.