Dating ancient manuscripts using radiocarbon and AI-based writing style analysis

📄 arXiv: 2407.12013v2 📥 PDF

作者: Mladen Popović, Maruf A. Dhali, Lambert Schomaker, Johannes van der Plicht, Kaare Lund Rasmussen, Jacopo La Nasa, Ilaria Degano, Maria Perla Colombini, Eibert Tigchelaar

分类: cs.DL, cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2024-06-26 (更新: 2024-10-18)

备注: 16 pages of main article, 103 pages of supplementary materials; the first version of this article is originally prepared in July 2023 after the completion of all the experiments


💡 一句话要点

Enoch:结合放射性碳定年与AI书法分析,用于古代手稿的精准断代

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 古代手稿断代 放射性碳定年 AI笔迹分析 贝叶斯岭回归 死海古卷

📋 核心要点

  1. 现有古文字学方法在死海古卷等古代手稿断代上缺乏足够可靠的参照样本,导致年代估计不准确。
  2. 提出Enoch模型,结合放射性碳定年数据与AI笔迹分析,利用贝叶斯岭回归进行日期预测。
  3. 实验表明,Enoch模型能有效预测手稿年代,且预测结果与传统古文字学估计存在偏差,为重新评估古卷年代提供依据。

📝 摘要(中文)

确定古代手写稿本的年代对于重构思想的演变至关重要,对于死海古卷尤其如此。然而,用于古文字学比较的、时间线上均匀分布且以类似笔迹书写的、带有日期的手稿几乎完全缺失。我们提出了Enoch,一个基于人工智能的先进日期预测模型,该模型基于古卷的新放射性碳定年样本进行训练。Enoch使用已建立的笔迹风格描述符并应用贝叶斯岭回归。本研究的挑战在于,放射性碳定年的手稿数量很少,而当前的机器学习需要大量的训练数据。我们表明,通过使用组合的角度和异体字笔迹风格特征向量并应用贝叶斯岭回归,Enoch可以根据风格预测基于放射性碳的日期,并通过留一法验证支持,相对于放射性碳定年,平均绝对误差(MAE)在27.9到30.7年之间。然后,Enoch被用于估计135份未见手稿的日期,结果显示,79%的样本在古文字学事后评估中被认为是“真实的”。我们提出了古卷的新年表。放射性碳范围和Enoch基于风格的预测通常比传统上假定的古文字学估计更老。在公元前300-50年的范围内,Enoch的日期预测提供了更高的粒度。该研究符合多模态机器学习技术的当前发展趋势,该方法可用于其他部分定年的手稿集合中的日期预测。这项研究表明,Enoch的定量、基于概率的方法可以作为古文字学家和历史学家的工具,重新确定古代犹太关键文本的年代,并有助于当前关于犹太教和基督教起源的辩论。

🔬 方法详解

问题定义:论文旨在解决古代手稿,特别是死海古卷的精确断代问题。传统古文字学方法依赖于笔迹风格的比较,但由于缺乏足够数量的、带有明确日期的参照样本,导致断代结果的主观性和不确定性较高。放射性碳定年法虽然客观,但成本较高,且样本数量有限,难以覆盖所有手稿。因此,如何结合少量放射性碳定年数据,实现对大量手稿的准确断代,是本研究要解决的核心问题。

核心思路:论文的核心思路是将放射性碳定年法与AI笔迹分析相结合。首先,利用放射性碳定年法确定少量手稿的绝对年代,作为训练数据。然后,提取手稿的笔迹风格特征,训练一个AI模型,使其能够根据笔迹风格预测手稿的年代。这样,就可以利用少量放射性碳定年数据,训练出一个能够对大量手稿进行断代的AI模型。这种思路的优势在于,既利用了放射性碳定年法的客观性,又利用了AI笔迹分析的效率和可扩展性。

技术框架:Enoch模型的整体框架包括以下几个主要阶段:1) 数据收集:收集已进行放射性碳定年的手稿样本,以及需要进行断代的手稿样本。2) 特征提取:提取手稿的笔迹风格特征,包括角度特征和异体字特征。3) 模型训练:使用放射性碳定年的手稿样本作为训练数据,训练一个贝叶斯岭回归模型。4) 日期预测:使用训练好的模型,预测需要进行断代的手稿的年代。5) 结果验证:通过留一法验证模型的预测精度,并与传统古文字学估计进行比较。

关键创新:本研究的关键创新在于:1) 结合放射性碳定年法与AI笔迹分析,提出了一种新的手稿断代方法。2) 使用组合的角度和异体字笔迹风格特征向量,提高了笔迹风格特征的表达能力。3) 应用贝叶斯岭回归,有效解决了训练数据量小的问题。4) 对大量未见手稿进行了断代,并提出了新的古卷年表。

关键设计:在特征提取方面,论文使用了组合的角度和异体字笔迹风格特征向量。角度特征描述了笔画的方向和角度,异体字特征描述了不同字母或符号的变体。在模型训练方面,论文使用了贝叶斯岭回归,这是一种线性回归的正则化方法,可以有效防止过拟合,提高模型的泛化能力。贝叶斯岭回归的关键参数是正则化系数,该参数控制了模型的复杂度。论文通过交叉验证选择最优的正则化系数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Enoch模型在留一法验证中,相对于放射性碳定年,平均绝对误差(MAE)在27.9到30.7年之间。对135份未见手稿进行断代后,79%的样本在古文字学事后评估中被认为是“真实的”。Enoch的预测结果与传统古文字学估计存在偏差,表明传统方法可能存在系统性误差。该研究为重新评估死海古卷的年代提供了新的证据。

🎯 应用场景

该研究提出的方法可应用于其他古代手稿的断代研究,例如《圣经》手稿、古兰经手稿等。通过结合放射性碳定年与AI笔迹分析,可以更准确地确定这些手稿的年代,从而为历史学、宗教学等领域的研究提供更可靠的基础。此外,该方法还可以用于鉴定古代文献的真伪,例如判断一份手稿是否为伪造品。

📄 摘要(原文)

Determining the chronology of ancient handwritten manuscripts is essential for reconstructing the evolution of ideas. For the Dead Sea Scrolls, this is particularly important. However, there is an almost complete lack of date-bearing manuscripts evenly distributed across the timeline and written in similar scripts available for palaeographic comparison. Here, we present Enoch, a state-of-the-art AI-based date-prediction model, trained on the basis of new radiocarbon-dated samples of the scrolls. Enoch uses established handwriting-style descriptors and applies Bayesian ridge regression. The challenge of this study is that the number of radiocarbon-dated manuscripts is small, while current machine learning requires an abundance of training data. We show that by using combined angular and allographic writing style feature vectors and applying Bayesian ridge regression, Enoch could predict the radiocarbon-based dates from style, supported by leave-one-out validation, with varied MAEs of 27.9 to 30.7 years relative to the radiocarbon dating. Enoch was then used to estimate the dates of 135 unseen manuscripts, revealing that 79 per cent of the samples were considered 'realistic' upon palaeographic post-hoc evaluation. We present a new chronology of the scrolls. The radiocarbon ranges and Enoch's style-based predictions are often older than the traditionally assumed palaeographic estimates. In the range of 300-50 BCE, Enoch's date prediction provides an improved granularity. The study is in line with current developments in multimodal machine-learning techniques, and the methods can be used for date prediction in other partially-dated manuscript collections. This research shows how Enoch's quantitative, probability-based approach can be a tool for palaeographers and historians, re-dating ancient Jewish key texts and contributing to current debates on Jewish and Christian origins.