Rezwan: Leveraging Large Language Models for Comprehensive Hadith Text Processing: A 1.2M Corpus Development

作者: Majid Asgari-Bidhendi, Muhammad Amin Ghaseminia, Alireza Shahbazi, Sayyed Ali Hossayni, Najmeh Torabian, Behrouz Minaei-Bidgoli

分类: cs.CL, cs.AI

发布日期: 2025-10-04

备注: 9 pages, 3 figures

💡 一句话要点

Rezwan：利用大型语言模型构建120万规模的圣训文本处理语料库

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 圣训文本处理 大型语言模型 语料库构建 数字人文 伊斯兰研究

📋 核心要点

现有圣训文本处理方法缺乏大规模、多语言和语义增强能力，限制了数字人文和伊斯兰研究的深入开展。
Rezwan利用大型语言模型构建全自动流程，实现圣训文本的分割、链-文本分离、验证和多层语义增强。
实验表明，Rezwan在链-文本分离和概括等任务中达到接近人类水平的准确率，且成本远低于人工标注。

📝 摘要（中文）

本文介绍了Rezwan的开发，这是一个大规模的AI辅助圣训语料库，包含超过120万条叙述，通过全自动流程提取和结构化。该流程基于Maktabat Ahl al-Bayt等数字存储库，利用大型语言模型（LLM）进行分割、链-文本分离、验证和多层增强。每条叙述都通过机器翻译成十二种语言、智能音标标注、抽象概括、主题标签和跨文本语义分析进行增强。这个多步骤过程将原始文本转换为丰富的、可用于数字人文和伊斯兰研究的研究基础设施。对1213条随机抽样的叙述进行了严格的评估，由六位领域专家进行评估。结果表明，在链-文本分离（9.33/10）和概括（9.33/10）等结构化任务中，准确率接近人类水平，同时也突出了音标标注和语义相似性检测方面持续存在的挑战。与手动管理的Noor语料库的比较分析表明，Najm在规模和质量上都优于Noor语料库，平均总分分别为8.46/10和3.66/10。此外，成本分析证实了人工智能方法在经济上的可行性：需要超过22.9万小时专家劳动的任务在几个月内以一小部分成本完成。这项工作通过展示人工智能如何增强人类专业知识，从而实现对伊斯兰遗产的大规模、多语言和语义丰富的访问，从而引入了宗教文本处理的新范式。

🔬 方法详解

问题定义：论文旨在解决圣训文本处理中数据规模小、人工标注成本高、缺乏多语言支持和语义信息等问题。现有方法难以满足数字人文和伊斯兰研究对大规模、高质量圣训文本数据的需求。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大能力，构建一个全自动化的圣训文本处理流程。通过LLM自动完成文本分割、链-文本分离、验证、机器翻译、摘要生成、主题标注和语义分析等任务，从而降低人工成本，提高处理效率和数据质量。

技术框架：Rezwan的处理流程主要包括以下几个阶段：1) 数据提取：从Maktabat Ahl al-Bayt等数字存储库中提取原始圣训文本。2) 文本分割和链-文本分离：利用LLM将圣训文本分割成独立的叙述，并将叙述链与文本内容分离。3) 验证：使用LLM验证分割和分离的准确性。4) 多层增强：利用LLM进行机器翻译（12种语言）、智能音标标注、抽象概括、主题标签和跨文本语义分析。

关键创新：该论文的关键创新在于将大型语言模型应用于圣训文本处理，构建了一个全自动化的处理流程。与传统的人工标注方法相比，该方法能够显著降低成本，提高效率，并实现大规模、多语言和语义丰富的圣训文本数据处理。

关键设计：论文中没有详细说明LLM的具体选择和参数设置，以及损失函数和网络结构等技术细节。这些细节可能属于商业机密或未在论文中详细描述。但可以推测，针对不同的任务（如文本分割、摘要生成等），可能采用了不同的LLM模型和训练策略。

📊 实验亮点

实验结果表明，Rezwan在链-文本分离和概括任务中取得了接近人类水平的准确率（9.33/10）。与手动管理的Noor语料库相比，Rezwan在规模和质量上均有显著提升（8.46/10 vs 3.66/10）。此外，成本分析表明，Rezwan能够以远低于人工标注的成本完成大规模圣训文本处理任务。

🎯 应用场景

Rezwan语料库可广泛应用于数字人文、伊斯兰研究、自然语言处理等领域。它能够为学者提供大规模、多语言、语义丰富的圣训文本数据，促进相关领域的研究和应用，例如伊斯兰教义理解、跨文化交流、宗教文本分析等。未来，该语料库还可用于开发智能问答系统、机器翻译工具等。

📄 摘要（原文）

This paper presents the development of Rezwan, a large-scale AI-assisted Hadith corpus comprising over 1.2M narrations, extracted and structured through a fully automated pipeline. Building on digital repositories such as Maktabat Ahl al-Bayt, the pipeline employs Large Language Models (LLMs) for segmentation, chain--text separation, validation, and multi-layer enrichment. Each narration is enhanced with machine translation into twelve languages, intelligent diacritization, abstractive summarization, thematic tagging, and cross-text semantic analysis. This multi-step process transforms raw text into a richly annotated research-ready infrastructure for digital humanities and Islamic studies. A rigorous evaluation was conducted on 1,213 randomly sampled narrations, assessed by six domain experts. Results show near-human accuracy in structured tasks such as chain--text separation (9.33/10) and summarization (9.33/10), while highlighting ongoing challenges in diacritization and semantic similarity detection. Comparative analysis against the manually curated Noor Corpus demonstrates the superiority of Najm in both scale and quality, with a mean overall score of 8.46/10 versus 3.66/10. Furthermore, cost analysis confirms the economic feasibility of the AI approach: tasks requiring over 229,000 hours of expert labor were completed within months at a fraction of the cost. The work introduces a new paradigm in religious text processing by showing how AI can augment human expertise, enabling large-scale, multilingual, and semantically enriched access to Islamic heritage.

Rezwan: Leveraging Large Language Models for Comprehensive Hadith Text Processing: A 1.2M Corpus Development

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理