From Boundaries to Semantics: Prompt-Guided Multi-Task Learning for Petrographic Thin-section Segmentation

📄 arXiv: 2604.14805v1 📥 PDF

作者: Yili Ren, Shiqi Wen, Li Hou, Dingwen Xiao, Weiming Zhang, Caleb Chen Cao, Lin Wang, Zilu Zheng, Qianxiao Su, Mingjun Zhao, Lei Chen

分类: cs.CV

发布日期: 2026-04-16


💡 一句话要点

Petro-SAM:提出一种提示引导的多任务学习框架,用于岩相薄片分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 岩相薄片分割 晶界分割 岩性语义分割 多任务学习 Segment Anything Model

📋 核心要点

  1. 现有岩相薄片分析中,晶界分割和岩性语义分割通常独立进行,标注成本高昂且分割质量欠佳。
  2. Petro-SAM利用SAM的边界对齐能力,通过Merge Block融合偏振视图,并结合多尺度特征和颜色熵先验,实现高质量联合分割。
  3. 该方法在岩相图像上实现了高质量的晶界和岩性分割,有效解决了消光问题,并提升了分割精度。

📝 摘要(中文)

本文提出Petro-SAM,一种新颖的两阶段多任务框架,旨在实现岩相图像上高质量的晶界分割(GES)和岩性语义分割(LSS)。现有的GES和LSS通常被独立处理,尽管使用了耗时且需要专家标注的数据集,分割质量仍然不尽如人意。最近,基础模型,特别是Segment Anything Model (SAM),在边界对齐方面表现出令人印象深刻的鲁棒性。然而,由于消光相关的颜色变化和超细晶界导致的严重领域差距,以及缺乏用于多角度岩相图像堆栈联合学习的新模块,直接将SAM应用于联合GES和LSS并非易事。Petro-SAM基于SAM,引入了Merge Block来整合七个偏振视图,有效解决了消光问题。此外,还引入了多尺度特征融合和颜色熵先验来细化检测。

🔬 方法详解

问题定义:论文旨在解决岩相薄片图像中晶界分割(GES)和岩性语义分割(LSS)两个任务。现有方法通常独立处理这两个任务,导致分割质量不高,且需要大量专家标注数据,成本高昂。直接应用现有分割模型(如SAM)到岩相图像面临领域差距问题,主要体现在消光效应引起的颜色变化和超细晶界难以识别。

核心思路:论文的核心思路是利用Segment Anything Model (SAM) 在边界检测方面的优势,并针对岩相图像的特点进行改进,实现高质量的联合GES和LSS。通过引入Merge Block融合多角度偏振视图,解决消光问题;同时,利用多尺度特征融合和颜色熵先验来提升分割精度。

技术框架:Petro-SAM是一个两阶段的多任务学习框架。第一阶段,利用改进的SAM进行初步分割,其中Merge Block用于融合七个偏振视图的信息。第二阶段,通过多尺度特征融合和颜色熵先验对分割结果进行细化。整体流程包括图像输入、特征提取、多视图融合、分割预测和结果优化。

关键创新:该论文的关键创新在于:1) 提出了Merge Block,能够有效融合多角度偏振视图,解决岩相图像中由消光效应引起的颜色变化问题;2) 结合了多尺度特征融合和颜色熵先验,进一步提升了分割精度;3) 将SAM成功应用于岩相薄片图像的GES和LSS任务,并实现了联合学习。

关键设计:Merge Block的具体实现方式未知,但其核心思想是利用不同偏振角度下的图像信息互补,从而消除消光效应的影响。多尺度特征融合可能采用了类似FPN (Feature Pyramid Network) 的结构,将不同尺度的特征进行融合,以提升对不同大小晶粒的分割能力。颜色熵先验可能用于指导分割,例如,颜色熵较低的区域可能对应于同一种岩性,从而可以辅助岩性语义分割。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的Petro-SAM框架,通过引入Merge Block和多尺度特征融合等技术,有效解决了岩相薄片图像分割中的消光问题和领域差距。实验结果表明,该方法能够实现高质量的晶界和岩性分割,显著优于现有方法,但具体性能数据未知。

🎯 应用场景

该研究成果可应用于岩石学、石油地质学等领域,用于岩石组构和成分的定量分析。通过自动化的晶界和岩性分割,可以减少人工标注的工作量,提高分析效率,并为岩石性质预测、储层评价等提供更准确的数据支持。未来,该方法有望推广到其他类型的地质图像分析中。

📄 摘要(原文)

Grain-edge segmentation (GES) and lithology semantic segmentation (LSS) are two pivotal tasks for quantifying rock fabric and composition. However, these two tasks are often treated separately, and the segmentation quality is implausible albeit expensive, time-consuming, and expert-annotated datasets have been used. Recently, foundation models, especially the Segment Anything Model (SAM), have demonstrated impressive robustness for boundary alignment. However, directly adapting SAM to joint GES and LSS is nontrivial due to 1) severe domain gap induced by extinction-dependent color variations and ultra-fine grain boundaries, and 2) lacking novel modules for joint learning on multi-angle petrographic image stacks. In this paper, we propose Petro-SAM, a novel two-stage, multi-task framework that can achieve high-quality joint GES and LSS on petrographic images. Specifically, based on SAM, we introduce a Merge Block to integrate seven polarized views, effectively solving the extinction issue. Moreover, we introduce multi-scale feature fusion and color-entropy priors to refine the detection.