Implicit Spatiotemporal Bandwidth Enhancement Filter by Sine-activated Deep Learning Model for Fast 3D Photoacoustic Tomography

📄 arXiv: 2507.20575v1 📥 PDF

作者: I Gede Eka Sulistyawan, Takuro Ishii, Riku Suzuki, Yoshifumi Saijo

分类: eess.IV, cs.AI

发布日期: 2025-07-28

备注: 14 pages, 13 figures. This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出基于正弦激活深度学习模型的时空带宽增强滤波器,用于快速3D光声层析成像。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 光声层析成像 深度学习 带宽增强 正弦激活函数 生物医学成像

📋 核心要点

  1. 高频3D-PAT受限于传感器数量和带宽,导致图像质量下降,难以捕捉精细结构。
  2. 提出基于正弦激活的深度学习模型,直接处理传感器数据,恢复宽带信号,提升图像质量。
  3. 实验表明,该模型能有效增强高频成分,提高信噪比,并实现快速3D成像。

📝 摘要(中文)

本研究针对使用高频半球形换能器的3D光声层析成像(3D-PAT)中,由于有限通道数和带宽限制采样率导致的图像质量下降问题,提出了一种新的深度学习(DL)方法。该方法直接应用于传感器端的PA射频(PARF)数据,通过引入正弦激活函数到DL模型中,恢复PARF信号的宽带特性。为了解决3D训练数据稀缺的问题,采用模拟随机球形吸收体的简化训练策略,强调带宽学习而非数据集记忆。在叶片骨骼模型、微CT验证的3D螺旋模型和体内人手掌血管上的评估结果表明,该方法具有良好的泛化能力,能够有效提高传感器密度并恢复时空带宽。正弦激活模型能够独特地增强高频成分,产生更清晰的血管结构,减少伪影。定量分析表明,该模型在-12 dB频谱处表现出完整带宽,并显著提高了信噪比,同时结构相似性指数损失最小。最后,该方法经过优化,能够以每秒2个体积的速度实现快速增强的3D-PAT,从而更好地对自由移动的目标进行实际成像。

🔬 方法详解

问题定义:3D光声层析成像(3D-PAT)使用高频半球形换能器,虽然能提供近全向接收和增强对高频细节的敏感性,但实际应用中,有限的通道数和带宽限制的采样率导致传感器稀疏和带宽受限,从而降低图像质量。现有方法难以有效恢复高频信息,导致图像模糊和细节丢失。

核心思路:论文的核心思路是利用深度学习模型学习PARF信号的宽带特性,通过正弦激活函数增强模型对高频信息的表达能力。通过模拟随机球形吸收体生成训练数据,避免模型过度拟合特定数据集,从而提高泛化能力。这种方法旨在恢复由于传感器限制而丢失的时空带宽。

技术框架:该方法直接作用于传感器采集的PARF数据。整体流程包括:1) 采集带限PARF数据;2) 使用基于正弦激活的深度学习模型进行处理,恢复宽带PARF信号;3) 利用重建算法生成3D光声图像。关键模块是基于正弦激活函数的深度学习模型,用于增强PARF信号的带宽。

关键创新:最重要的技术创新点是将正弦激活函数引入到深度学习模型中,这使得模型能够更好地学习和表达高频信息,从而有效地恢复PARF信号的宽带特性。与传统的深度学习方法相比,该方法更注重带宽学习,而非简单的数据集记忆,因此具有更好的泛化能力。

关键设计:训练数据通过模拟随机球形吸收体生成,以增加数据的多样性并避免过拟合。损失函数的设计旨在最小化重建图像与真实图像之间的差异,同时考虑结构相似性。网络结构采用卷积神经网络,并针对PARF信号的特点进行了优化。正弦激活函数的具体形式为sin(x),其中x为网络的输出。

📊 实验亮点

实验结果表明,该方法在叶片骨骼模型、3D螺旋模型和体内人手掌血管成像中均表现出良好的性能。与传统方法相比,该方法能够显著提高图像的信噪比和对比度,并减少伪影。定量分析表明,该模型在-12 dB频谱处表现出完整带宽,结构相似性指数损失最小,并且能够以每秒2个体积的速度实现快速3D成像。

🎯 应用场景

该研究成果可应用于生物医学成像领域,例如血管成像、肿瘤检测和药物输送监测。通过提高图像质量和成像速度,该方法能够为临床诊断和治疗提供更准确、更实时的信息,具有重要的临床应用价值和潜力。未来可进一步拓展到其他需要高分辨率和快速成像的应用场景。

📄 摘要(原文)

3D photoacoustic tomography (3D-PAT) using high-frequency hemispherical transducers offers near-omnidirectional reception and enhanced sensitivity to the finer structural details encoded in the high-frequency components of the broadband photoacoustic (PA) signal. However, practical constraints such as limited number of channels with bandlimited sampling rate often result in sparse and bandlimited sensors that degrade image quality. To address this, we revisit the 2D deep learning (DL) approach applied directly to sensor-wise PA radio-frequency (PARF) data. Specifically, we introduce sine activation into the DL model to restore the broadband nature of PARF signals given the observed band-limited and high-frequency PARF data. Given the scarcity of 3D training data, we employ simplified training strategies by simulating random spherical absorbers. This combination of sine-activated model and randomized training is designed to emphasize bandwidth learning over dataset memorization. Our model was evaluated on a leaf skeleton phantom, a micro-CT-verified 3D spiral phantom and in-vivo human palm vasculature. The results showed that the proposed training mechanism on sine-activated model was well-generalized across the different tests by effectively increasing the sensor density and recovering the spatiotemporal bandwidth. Qualitatively, the sine-activated model uniquely enhanced high-frequency content that produces clearer vascular structure with fewer artefacts. Quantitatively, the sine-activated model exhibits full bandwidth at -12 dB spectrum and significantly higher contrast-to-noise ratio with minimal loss of structural similarity index. Lastly, we optimized our approach to enable fast enhanced 3D-PAT at 2 volumes-per-second for better practical imaging of a free-moving targets.