Oracle Bone Script Similiar Character Screening Approach Based on Simsiam Contrastive Learning and Supervised Learning
作者: Xinying Weng, Yifan Li, Shuaidong Hao, Jialiang Hou
分类: cs.CV
发布日期: 2024-08-13
💡 一句话要点
提出基于SimSiam对比学习和监督学习的甲骨文相似字筛选方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 甲骨文 相似字筛选 自监督学习 监督学习 SimSiam RepVGG 模糊综合评价 图像增强
📋 核心要点
- 现有甲骨文相似字筛选方法缺乏自动化,且难以量化“最相似”的概念。
- 该方法融合自监督学习和监督学习,并利用模糊综合评价方法进行结果整合。
- 通过图像预处理和增强,有效提升了模型对甲骨文关键特征的学习能力。
📝 摘要(中文)
该项目提出了一种新方法,使用模糊综合评价方法整合ResNet-50自监督学习和RepVGG监督学习。以HWOBC甲骨文图像数据集作为输入,选择目标图像,最终在没有任何人工干预的情况下依次输出最相似的图像。对于不同模态的图像,不使用相同的特征编码方法。在模型训练之前,对图像数据进行预处理,并通过随机旋转处理、自平方图均衡理论算法和伽马变换来增强图像,从而有效地增强关键特征的学习。最后,采用模糊综合评价方法将监督训练和无监督训练的结果相结合,可以更好地解决难以量化的“最相似”问题。目前,有许多未知的甲骨文等待我们破解。与字形联系起来可以为破解提供新的思路。
🔬 方法详解
问题定义:该论文旨在解决甲骨文相似字自动筛选的问题。现有方法通常依赖人工干预,效率低下,并且难以对“最相似”进行准确量化,导致筛选结果的主观性较强。因此,需要一种能够自动、准确地筛选出与目标甲骨文图像最相似的图像的方法。
核心思路:论文的核心思路是结合自监督学习和监督学习的优势,利用自监督学习提取图像的通用特征,再利用监督学习学习特定任务的判别特征。通过模糊综合评价方法,将两种学习方式的结果进行融合,从而更全面地评估图像之间的相似度。这种方法旨在克服单一学习方式的局限性,提高相似字筛选的准确性和鲁棒性。
技术框架:整体框架包括以下几个主要阶段:1) 数据预处理:对甲骨文图像进行随机旋转、自平方图均衡化和伽马变换等增强操作,以提高模型的泛化能力。2) 特征提取:使用ResNet-50进行自监督学习(SimSiam),提取图像的通用特征;使用RepVGG进行监督学习,学习特定任务的判别特征。3) 相似度评估:分别计算自监督学习和监督学习得到的特征向量之间的相似度。4) 结果融合:使用模糊综合评价方法,将两种相似度评估结果进行加权融合,得到最终的相似度评分。5) 相似字筛选:根据相似度评分,筛选出与目标图像最相似的甲骨文图像。
关键创新:该方法的主要创新点在于:1) 融合了自监督学习和监督学习,充分利用了两种学习方式的优势。2) 采用了模糊综合评价方法,能够更合理地融合不同来源的相似度评估结果,有效解决了“最相似”难以量化的问题。3) 针对甲骨文图像的特点,设计了特定的图像预处理和增强方法,提高了模型的性能。
关键设计:在自监督学习中,采用了SimSiam框架,避免了使用负样本对,简化了训练过程。在监督学习中,使用了RepVGG网络,该网络具有训练时多分支、推理时单路结构的特点,能够在保证精度的同时提高推理速度。模糊综合评价方法中,需要确定各个因素的权重,这可能需要根据具体的实验结果进行调整。损失函数的设计需要同时考虑自监督学习和监督学习的目标,以平衡两种学习方式的贡献。
📊 实验亮点
论文提出的方法通过融合自监督学习和监督学习,并结合模糊综合评价,能够有效地筛选甲骨文相似字。虽然摘要中没有给出具体的性能数据和对比基线,但强调了该方法能够更好地解决难以量化的“最相似”问题,并为甲骨文的破译提供新的思路。
🎯 应用场景
该研究成果可应用于甲骨文释读、古文字研究、历史文化传承等领域。通过自动筛选相似字,可以为甲骨文研究者提供参考,加速甲骨文的破译进程。此外,该方法还可以推广到其他类似的应用场景,例如古代文物图像的相似性搜索和分类。
📄 摘要(原文)
This project proposes a new method that uses fuzzy comprehensive evaluation method to integrate ResNet-50 self-supervised and RepVGG supervised learning. The source image dataset HWOBC oracle is taken as input, the target image is selected, and finally the most similar image is output in turn without any manual intervention. The same feature encoding method is not used for images of different modalities. Before the model training, the image data is preprocessed, and the image is enhanced by random rotation processing, self-square graph equalization theory algorithm, and gamma transform, which effectively enhances the key feature learning. Finally, the fuzzy comprehensive evaluation method is used to combine the results of supervised training and unsupervised training, which can better solve the "most similar" problem that is difficult to quantify. At present, there are many unknown oracle-bone inscriptions waiting for us to crack. Contacting with the glyphs can provide new ideas for cracking.