ICH-Qwen: A Large Language Model Towards Chinese Intangible Cultural Heritage

📄 arXiv: 2505.23831v1 📥 PDF

作者: Wenhao Ye, Tiansheng Zheng, Yue Qi, Wenhua Zhao, Xiyu Wang, Xue Zhao, Jiacheng He, Yaya Zheng, Dongbo Wang

分类: cs.CL

发布日期: 2025-05-28

备注: 16 pages, 2 figures


💡 一句话要点

提出ICH-Qwen:面向中国非物质文化遗产的大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 非物质文化遗产 大型语言模型 自然语言处理 知识推理 合成数据 模型微调 数字人文

📋 核心要点

  1. 非物质文化遗产面临现代化挑战,存在破坏、消失和传承中断的风险,亟需创新技术手段进行保护和传承。
  2. 论文提出ICH-Qwen,利用大语言模型的理解和推理能力,结合合成数据和微调技术,专注于非遗领域的知识处理。
  3. 实验结果表明,ICH-Qwen在非遗特定任务上表现出有效性,为非遗的智能化保护和传承提供了新方案。

📝 摘要(中文)

中国的非物质文化遗产(ICH)是各民族世代相传的文化资产,是人类文明演进的重要证明,对于保存历史血脉和增强文化自信具有不可替代的价值。然而,快速的现代化进程给非物质文化遗产带来了严峻的挑战,包括破坏、消失和传承中断的威胁。中国在联合国教科文组织非物质文化遗产名录上的项目数量最多,这表明中国拥有丰富的文化资源,并强调了保护非物质文化遗产的迫切需求。近年来,大型语言模型的快速发展为非物质文化遗产的保护和传播提供了一种新的技术途径。本研究利用大量的开源中国非物质文化遗产数据,开发了一个用于非物质文化遗产领域的大型语言模型ICH-Qwen。该模型利用大型语言模型的自然语言理解和知识推理能力,并辅以合成数据和微调技术。实验结果表明,ICH-Qwen在执行非物质文化遗产领域的特定任务方面是有效的。预计该模型将为非物质文化遗产的保护、传承和传播提供智能解决方案,并为非物质文化遗产的可持续发展提供新的理论和实践参考。此外,预计该研究将为数字人文研究开辟新的道路。

🔬 方法详解

问题定义:论文旨在解决中国非物质文化遗产(ICH)在现代化进程中面临的保护、传承和传播难题。现有方法在智能化和自动化方面存在不足,难以有效应对非遗知识的复杂性和多样性。传统方法依赖人工整理和传播,效率低且容易出错。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解和知识推理能力,构建一个专门针对非遗领域的智能模型ICH-Qwen。通过对LLM进行微调和知识注入,使其能够更好地理解和处理非遗相关的信息,从而实现非遗知识的智能化保护、传承和传播。

技术框架:ICH-Qwen的整体框架包括以下几个主要阶段:1) 数据收集与整理:收集大量的开源中国非物质文化遗产数据,构建非遗知识库。2) 模型选择与预训练:选择一个合适的预训练大语言模型作为基础模型。3) 合成数据生成:利用现有数据生成更多样化的训练数据,增强模型的泛化能力。4) 模型微调:使用非遗相关的数据对基础模型进行微调,使其适应非遗领域的特定任务。5) 模型评估:设计实验评估ICH-Qwen在非遗相关任务上的性能。

关键创新:该论文的关键创新在于将大型语言模型应用于非物质文化遗产领域,并针对非遗知识的特点进行了定制化的模型设计和训练。与传统方法相比,ICH-Qwen能够自动地理解和处理非遗知识,并提供智能化的解决方案。此外,合成数据的生成也增强了模型的鲁棒性和泛化能力。

关键设计:论文中提到使用了合成数据和微调技术,但没有详细说明具体的参数设置、损失函数、网络结构等技术细节。这些细节是影响模型性能的关键因素,需要在后续研究中进一步探索和优化。例如,如何设计合适的损失函数来引导模型学习非遗知识,如何选择合适的微调策略来避免灾难性遗忘等。

📊 实验亮点

论文通过实验验证了ICH-Qwen在非遗特定任务上的有效性,但具体的性能数据、对比基线和提升幅度等信息未在摘要中详细给出。未来的研究可以进一步量化ICH-Qwen的性能提升,并与其他方法进行更全面的比较,以更好地评估其价值和潜力。

🎯 应用场景

ICH-Qwen的应用场景广泛,包括非遗知识的智能问答、非遗故事的自动生成、非遗技艺的虚拟展示、非遗产品的智能推荐等。该研究的实际价值在于提高非遗保护和传承的效率和质量,促进非遗文化的传播和推广。未来,ICH-Qwen有望成为非遗数字化保护的重要工具,并为数字人文研究提供新的思路和方法。

📄 摘要(原文)

The intangible cultural heritage (ICH) of China, a cultural asset transmitted across generations by various ethnic groups, serves as a significant testament to the evolution of human civilization and holds irreplaceable value for the preservation of historical lineage and the enhancement of cultural self-confidence. However, the rapid pace of modernization poses formidable challenges to ICH, including threats damage, disappearance and discontinuity of inheritance. China has the highest number of items on the UNESCO Intangible Cultural Heritage List, which is indicative of the nation's abundant cultural resources and emphasises the pressing need for ICH preservation. In recent years, the rapid advancements in large language modelling have provided a novel technological approach for the preservation and dissemination of ICH. This study utilises a substantial corpus of open-source Chinese ICH data to develop a large language model, ICH-Qwen, for the ICH domain. The model employs natural language understanding and knowledge reasoning capabilities of large language models, augmented with synthetic data and fine-tuning techniques. The experimental results demonstrate the efficacy of ICH-Qwen in executing tasks specific to the ICH domain. It is anticipated that the model will provide intelligent solutions for the protection, inheritance and dissemination of intangible cultural heritage, as well as new theoretical and practical references for the sustainable development of intangible cultural heritage. Furthermore, it is expected that the study will open up new paths for digital humanities research.