Automated Mosaic Tesserae Segmentation via Deep Learning Techniques
作者: Charilaos Kapelonis, Marios Antonakakis, Konstantinos Politof, Aristomenis Antoniadis, Michalis Zervakis
分类: cs.CV, cs.LG
发布日期: 2025-12-20
DOI: 10.1109/IST66504.2025.11268445
💡 一句话要点
利用深度学习技术自动分割马赛克镶嵌图案,实现文化遗产数字化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 马赛克分割 图像分割 深度学习 SAM模型 文化遗产数字化
📋 核心要点
- 马赛克作为重要的文化遗产,易受损且数字化程度低,现有分割方法难以满足其复杂性和多样性需求。
- 提出基于Meta AI的SAM 2模型进行马赛克镶嵌图案分割,并针对性地进行微调,提升分割精度。
- 实验结果表明,微调后的模型在IoU、召回率和F-measure等指标上均优于基线模型和现有方法。
📝 摘要(中文)
艺术被广泛认为是文明的反映,而马赛克是文化遗产的重要组成部分。马赛克是一种古老的艺术形式,通过将被称为镶嵌图案的小块材料用粘合剂排列在表面上而创作。由于其年代久远和脆弱性,马赛克容易损坏,因此需要进行数字化保存。本文通过分割镶嵌图案,将其与背景分离,从而解决马赛克数字化的问题,属于计算机视觉中图像分割的范畴。我们提出了一种利用Meta AI的Segment Anything Model 2 (SAM 2)的方法,这是一个优于大多数传统分割模型的基础模型,可以自动分割马赛克。由于该领域开放数据集有限,我们还创建了一个带注释的马赛克图像数据集,以微调和评估模型。在我们的测试数据集上的定量评估显示,与基线SAM 2模型相比,有显著的改进,交并比从89.00%提高到91.02%,召回率从92.12%提高到95.89%。此外,在先前方法提出的基准测试中,我们的模型实现的F-measure比以前的方法高3%,并且将预测的和实际的镶嵌图案之间的绝对差的误差从0.20降低到仅0.02。微调后的SAM 2模型的显著性能以及新注释的数据集可以为马赛克图像的实时分割铺平道路。
🔬 方法详解
问题定义:论文旨在解决马赛克图像中镶嵌图案的自动分割问题。现有的图像分割方法在处理具有复杂纹理、光照变化和不规则形状的马赛克图像时,分割精度较低,难以满足文化遗产数字化的需求。此外,缺乏高质量的马赛克图像数据集也限制了深度学习方法在该领域的应用。
核心思路:论文的核心思路是利用Meta AI的Segment Anything Model 2 (SAM 2)作为基础模型,并针对马赛克图像的特点进行微调。SAM 2作为一个强大的预训练模型,具有良好的泛化能力和分割性能。通过在自建的马赛克数据集上进行微调,可以使模型更好地适应马赛克图像的分割任务。
技术框架:整体流程包括:1) 构建马赛克图像数据集,并进行人工标注;2) 使用SAM 2模型作为初始模型;3) 在构建的数据集上对SAM 2模型进行微调;4) 使用微调后的模型对新的马赛克图像进行分割;5) 对分割结果进行评估。
关键创新:论文的关键创新在于:1) 将SAM 2模型应用于马赛克图像分割任务,充分利用了预训练模型的优势;2) 构建了一个高质量的马赛克图像数据集,为该领域的研究提供了数据支持;3) 通过微调SAM 2模型,显著提高了马赛克图像的分割精度。
关键设计:论文的关键设计包括:1) 数据集的构建:收集了各种类型的马赛克图像,并进行了精细的像素级标注;2) 微调策略:采用了合适的学习率、优化器和损失函数,以保证模型的收敛性和分割性能;3) 评估指标:使用了IoU、召回率和F-measure等常用的分割指标,对模型的性能进行了全面评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,微调后的SAM 2模型在自建的马赛克数据集上取得了显著的性能提升,IoU从89.00%提高到91.02%,召回率从92.12%提高到95.89%。在先前方法提出的基准测试中,该模型实现的F-measure比以前的方法高3%,并且将预测的和实际的镶嵌图案之间的绝对差的误差从0.20降低到仅0.02。
🎯 应用场景
该研究成果可应用于文化遗产数字化保护领域,实现对马赛克艺术品的自动分割和修复,提高数字化效率和质量。此外,该方法也可推广到其他类似结构的文物图像分割任务中,具有广泛的应用前景。未来,结合三维重建技术,可实现对马赛克艺术品的虚拟修复和展示。
📄 摘要(原文)
Art is widely recognized as a reflection of civilization and mosaics represent an important part of cultural heritage. Mosaics are an ancient art form created by arranging small pieces, called tesserae, on a surface using adhesive. Due to their age and fragility, they are prone to damage, highlighting the need for digital preservation. This paper addresses the problem of digitizing mosaics by segmenting the tesserae to separate them from the background within the broader field of Image Segmentation in Computer Vision. We propose a method leveraging Segment Anything Model 2 (SAM 2) by Meta AI, a foundation model that outperforms most conventional segmentation models, to automatically segment mosaics. Due to the limited open datasets in the field, we also create an annotated dataset of mosaic images to fine-tune and evaluate the model. Quantitative evaluation on our testing dataset shows notable improvements compared to the baseline SAM 2 model, with Intersection over Union increasing from 89.00% to 91.02% and Recall from 92.12% to 95.89%. Additionally, on a benchmark proposed by a prior approach, our model achieves an F-measure 3% higher than previous methods and reduces the error in the absolute difference between predicted and actual tesserae from 0.20 to just 0.02. The notable performance of the fine-tuned SAM 2 model together with the newly annotated dataset can pave the way for real-time segmentation of mosaic images.