Three-Dimensional, Multimodal Synchrotron Data for Machine Learning Applications

📄 arXiv: 2409.07322v1 📥 PDF

作者: Calum Green, Sharif Ahmed, Shashidhara Marathe, Liam Perera, Alberto Leonardi, Killian Gmyrek, Daniele Dini, James Le Houx

分类: cs.LG, eess.IV

发布日期: 2024-09-11

备注: 9 pages, 4 figures. Image Processing and Artificial Intelligence Conference, 2024


💡 一句话要点

构建用于机器学习的三维多模态同步辐射数据集,助力算法开发

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 同步辐射 多模态数据 X射线CT X射线衍射 机器学习 深度学习 数据融合

📋 核心要点

  1. 高质量训练数据的匮乏是开发基于机器学习的医学和物理科学成像工具的重要瓶颈。
  2. 本研究构建了一个掺锌沸石13X样品的多模态同步辐射数据集,旨在促进深度学习和数据融合算法的开发。
  3. 该数据集包含多分辨率显微X射线CT和空间分辨X射线衍射CT数据,可用于超分辨率、多模态融合和3D重建等任务。

📝 摘要(中文)

本文介绍了一个独特的多模态同步辐射数据集,该数据集由掺锌的13X型沸石样品构成,可用于开发先进的深度学习和数据融合流程。首先,对掺锌的13X型沸石碎片进行多分辨率显微X射线计算机断层扫描,以表征其孔隙和特征。然后,进行空间分辨的X射线衍射计算机断层扫描,以表征钠相和锌相的均匀分布。通过控制锌的吸收,创建了一种简单的、空间隔离的两相材料。原始数据和处理后的数据均以Zenodo条目的形式提供。总而言之,本文提供了一个空间分辨的、三维的、多模态的、多分辨率的数据集,可用于开发机器学习技术,包括超分辨率、多模态数据融合和3D重建算法。

🔬 方法详解

问题定义:现有机器学习方法在医学和物理科学成像领域的应用日益广泛,但高质量训练数据的缺乏限制了其发展。尤其是在同步辐射成像领域,缺乏公开可用的、多模态、多分辨率的数据集,阻碍了相关算法的开发和验证。

核心思路:本研究的核心思路是构建一个高质量、多模态的同步辐射数据集,包含不同分辨率的X射线CT和X射线衍射CT数据,涵盖样品的不同物理和化学性质。通过控制样品制备过程,简化材料的相组成,从而降低数据分析的复杂性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 制备掺锌的13X型沸石样品,并控制锌的吸收,使其形成空间隔离的两相材料。2) 使用多分辨率显微X射线计算机断层扫描(micro X-ray computed tomography)表征样品的孔隙和特征。3) 使用空间分辨的X射线衍射计算机断层扫描(X-ray diffraction computed tomography)表征钠相和锌相的均匀分布。4) 将原始数据和处理后的数据以Zenodo条目的形式公开。

关键创新:该研究的关键创新在于构建了一个独特的多模态同步辐射数据集,该数据集同时包含微观结构信息(通过显微X射线CT获得)和化学成分信息(通过X射线衍射CT获得),并且具有多分辨率的特点。此外,通过控制样品制备过程,简化了材料的相组成,使得该数据集更易于用于算法开发和验证。

关键设计:在样品制备方面,通过控制锌的吸收,使得样品形成空间隔离的两相材料,简化了数据分析的复杂性。在数据采集方面,采用了多分辨率的显微X射线CT,以获取不同尺度的结构信息。在数据发布方面,将原始数据和处理后的数据都以Zenodo条目的形式公开,方便其他研究者使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究构建了一个独特的多模态同步辐射数据集,包含多分辨率显微X射线CT和空间分辨X射线衍射CT数据。通过控制锌的吸收,创建了空间隔离的两相材料,简化了数据分析。该数据集已在Zenodo上公开,为机器学习算法的开发和验证提供了宝贵资源,有望推动超分辨率、多模态融合和3D重建等领域的研究进展。

🎯 应用场景

该数据集可广泛应用于材料科学、化学工程等领域,例如用于开发超分辨率成像算法,提升X射线CT图像的分辨率;用于开发多模态数据融合算法,将不同模态的成像数据进行融合,从而获得更全面的样品信息;用于开发三维重建算法,从二维投影数据重建出三维结构。该数据集的公开将促进相关领域机器学习算法的发展和应用。

📄 摘要(原文)

Machine learning techniques are being increasingly applied in medical and physical sciences across a variety of imaging modalities; however, an important issue when developing these tools is the availability of good quality training data. Here we present a unique, multimodal synchrotron dataset of a bespoke zinc-doped Zeolite 13X sample that can be used to develop advanced deep learning and data fusion pipelines. Multi-resolution micro X-ray computed tomography was performed on a zinc-doped Zeolite 13X fragment to characterise its pores and features, before spatially resolved X-ray diffraction computed tomography was carried out to characterise the homogeneous distribution of sodium and zinc phases. Zinc absorption was controlled to create a simple, spatially isolated, two-phase material. Both raw and processed data is available as a series of Zenodo entries. Altogether we present a spatially resolved, three-dimensional, multimodal, multi-resolution dataset that can be used for the development of machine learning techniques. Such techniques include development of super-resolution, multimodal data fusion, and 3D reconstruction algorithm development.