Rezwan: Leveraging Large Language Models for Comprehensive Hadith Text Processing: A 1.2M Corpus Development

📄 arXiv: 2510.03781v1 📥 PDF

作者: Majid Asgari-Bidhendi, Muhammad Amin Ghaseminia, Alireza Shahbazi, Sayyed Ali Hossayni, Najmeh Torabian, Behrouz Minaei-Bidgoli

分类: cs.CL, cs.AI

发布日期: 2025-10-04

备注: 9 pages, 3 figures


💡 一句话要点

Rezwan:利用大型语言模型构建120万规模的圣训文本处理语料库

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 圣训文本处理 大型语言模型 语料库构建 数字人文 伊斯兰研究

📋 核心要点

  1. 现有圣训文本处理方法缺乏大规模、多语言和语义增强能力,限制了数字人文和伊斯兰研究的深入开展。
  2. Rezwan利用大型语言模型构建全自动流程,实现圣训文本的分割、链-文本分离、验证和多层语义增强。
  3. 实验表明,Rezwan在链-文本分离和概括等任务中达到接近人类水平的准确率,且成本远低于人工标注。

📝 摘要(中文)

本文介绍了Rezwan的开发,这是一个大规模的AI辅助圣训语料库,包含超过120万条叙述,通过全自动流程提取和结构化。该流程基于Maktabat Ahl al-Bayt等数字存储库,利用大型语言模型(LLM)进行分割、链-文本分离、验证和多层增强。每条叙述都通过机器翻译成十二种语言、智能音标标注、抽象概括、主题标签和跨文本语义分析进行增强。这个多步骤过程将原始文本转换为丰富的、可用于数字人文和伊斯兰研究的研究基础设施。对1213条随机抽样的叙述进行了严格的评估,由六位领域专家进行评估。结果表明,在链-文本分离(9.33/10)和概括(9.33/10)等结构化任务中,准确率接近人类水平,同时也突出了音标标注和语义相似性检测方面持续存在的挑战。与手动管理的Noor语料库的比较分析表明,Najm在规模和质量上都优于Noor语料库,平均总分分别为8.46/10和3.66/10。此外,成本分析证实了人工智能方法在经济上的可行性:需要超过22.9万小时专家劳动的任务在几个月内以一小部分成本完成。这项工作通过展示人工智能如何增强人类专业知识,从而实现对伊斯兰遗产的大规模、多语言和语义丰富的访问,从而引入了宗教文本处理的新范式。

🔬 方法详解

问题定义:论文旨在解决圣训文本处理中数据规模小、人工标注成本高、缺乏多语言支持和语义信息等问题。现有方法难以满足数字人文和伊斯兰研究对大规模、高质量圣训文本数据的需求。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大能力,构建一个全自动化的圣训文本处理流程。通过LLM自动完成文本分割、链-文本分离、验证、机器翻译、摘要生成、主题标注和语义分析等任务,从而降低人工成本,提高处理效率和数据质量。

技术框架:Rezwan的处理流程主要包括以下几个阶段:1) 数据提取:从Maktabat Ahl al-Bayt等数字存储库中提取原始圣训文本。2) 文本分割和链-文本分离:利用LLM将圣训文本分割成独立的叙述,并将叙述链与文本内容分离。3) 验证:使用LLM验证分割和分离的准确性。4) 多层增强:利用LLM进行机器翻译(12种语言)、智能音标标注、抽象概括、主题标签和跨文本语义分析。

关键创新:该论文的关键创新在于将大型语言模型应用于圣训文本处理,构建了一个全自动化的处理流程。与传统的人工标注方法相比,该方法能够显著降低成本,提高效率,并实现大规模、多语言和语义丰富的圣训文本数据处理。

关键设计:论文中没有详细说明LLM的具体选择和参数设置,以及损失函数和网络结构等技术细节。这些细节可能属于商业机密或未在论文中详细描述。但可以推测,针对不同的任务(如文本分割、摘要生成等),可能采用了不同的LLM模型和训练策略。

📊 实验亮点

实验结果表明,Rezwan在链-文本分离和概括任务中取得了接近人类水平的准确率(9.33/10)。与手动管理的Noor语料库相比,Rezwan在规模和质量上均有显著提升(8.46/10 vs 3.66/10)。此外,成本分析表明,Rezwan能够以远低于人工标注的成本完成大规模圣训文本处理任务。

🎯 应用场景

Rezwan语料库可广泛应用于数字人文、伊斯兰研究、自然语言处理等领域。它能够为学者提供大规模、多语言、语义丰富的圣训文本数据,促进相关领域的研究和应用,例如伊斯兰教义理解、跨文化交流、宗教文本分析等。未来,该语料库还可用于开发智能问答系统、机器翻译工具等。

📄 摘要(原文)

This paper presents the development of Rezwan, a large-scale AI-assisted Hadith corpus comprising over 1.2M narrations, extracted and structured through a fully automated pipeline. Building on digital repositories such as Maktabat Ahl al-Bayt, the pipeline employs Large Language Models (LLMs) for segmentation, chain--text separation, validation, and multi-layer enrichment. Each narration is enhanced with machine translation into twelve languages, intelligent diacritization, abstractive summarization, thematic tagging, and cross-text semantic analysis. This multi-step process transforms raw text into a richly annotated research-ready infrastructure for digital humanities and Islamic studies. A rigorous evaluation was conducted on 1,213 randomly sampled narrations, assessed by six domain experts. Results show near-human accuracy in structured tasks such as chain--text separation (9.33/10) and summarization (9.33/10), while highlighting ongoing challenges in diacritization and semantic similarity detection. Comparative analysis against the manually curated Noor Corpus demonstrates the superiority of Najm in both scale and quality, with a mean overall score of 8.46/10 versus 3.66/10. Furthermore, cost analysis confirms the economic feasibility of the AI approach: tasks requiring over 229,000 hours of expert labor were completed within months at a fraction of the cost. The work introduces a new paradigm in religious text processing by showing how AI can augment human expertise, enabling large-scale, multilingual, and semantically enriched access to Islamic heritage.