CERD: A Comprehensive Chinese Rhetoric Dataset for Rhetorical Understanding and Generation in Essays
作者: Nuowei Liu, Xinhao Chen, Hongyi Wu, Changzhi Sun, Man Lan, Yuanbin Wu, Xiaopeng Bai, Shaoguang Mao, Yan Xia
分类: cs.CL
发布日期: 2024-09-29
💡 一句话要点
提出CERD:一个全面的中文修辞数据集,用于提升论⽂中的修辞理解与⽣成能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中文修辞 数据集 修辞理解 修辞生成 自然语言处理
📋 核心要点
- 现有修辞数据集忽略了不同修辞⼿法间的关联,将它们视为独立的⼦任务,限制了对修辞的整体理解。
- CERD数据集包含粗粒度和细粒度修辞类别,并设计了五个相互关联的⼦任务,促进修辞理解、识别和⽣成。
- 实验表明,⼤语⾔模型在CERD上表现优异,联合微调多个任务能显著提升性能,为修辞研究提供了新基准。
📝 摘要(中文)
本文提出了中文论⽂修辞数据集(CERD),旨在解决现有修辞理解和⽣成数据集主要关注单个粗粒度或细粒度类别,忽略不同修辞⼿法之间常见关联的问题。CERD包含四种常用的粗粒度类别(⽐喻、拟⼈、夸张和排⽐)以及23种细粒度类别,涵盖形式和内容层面。该数据集是⼿动标注的综合性中文修辞数据集,包含五个相互关联的⼦任务。与以往⼯作不同,CERD有助于理解各种修辞⼿法,识别相应的修辞成分,并在给定条件下⽣成修辞句⼦,从而提⾼作者的写作能⼒和语⾔运⽤技巧。⼤量实验证明了CERD中多个任务之间的相互关系,并为未来修辞研究建⽴了基准。实验结果表明,⼤语⾔模型在⼤多数任务中表现最佳,并且与多个任务联合微调可以进⼀步提⾼性能。
🔬 方法详解
问题定义:现有修辞理解和⽣成数据集主要关注单个粗粒度或细粒度类别,忽略了不同修辞⼿法之间的关联性,将它们视为独立的子任务。这限制了模型对修辞的全面理解和应用,无法有效提升写作能力和语言运用技巧。
核心思路:CERD数据集的核心思路是构建一个全面的、多粒度的中文修辞数据集,包含粗粒度和细粒度的修辞类别,并设计多个相互关联的子任务,从而促进模型对修辞的整体理解、识别和生成。通过这种方式,可以更好地捕捉不同修辞手法之间的联系,提升模型的修辞能力。
技术框架:CERD数据集的构建包含以下几个主要阶段: 1. 修辞类别定义:确定粗粒度(⽐喻、拟⼈、夸张和排⽐)和细粒度修辞类别(23种)。 2. 数据收集:收集包含各种修辞⼿法的中文论⽂语料。 3. ⼈⼯标注:对语料进⾏⼈⼯标注,标注修辞⼿法的类型、位置和相关成分。 4. ⼦任务设计:设计五个相互关联的⼦任务,包括修辞识别、修辞成分识别和修辞⽣成等。 5. 数据集构建:将标注后的语料整理成数据集,并提供相应的评估指标。
关键创新:CERD数据集的关键创新在于其综合性和多任务性。与以往⼯作相比,CERD不仅包含粗粒度和细粒度的修辞类别,还设计了多个相互关联的⼦任务,从而促进模型对修辞的整体理解、识别和⽣成。这种多任务学习的⽅式可以更好地捕捉不同修辞⼿法之间的联系,提升模型的修辞能⼒。
关键设计:CERD数据集的关键设计包括: 1. 细粒度修辞类别:定义了23种细粒度修辞类别,涵盖形式和内容层面,从而更全面地描述修辞⼿法。 2. 相互关联的⼦任务:设计了五个相互关联的⼦任务,包括修辞识别、修辞成分识别和修辞⽣成等,从而促进模型对修辞的整体理解。 3. ⼤语⾔模型基线:使⽤⼤语⾔模型作为基线模型,并进⾏联合微调,从而验证数据集的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,⼤语⾔模型在CERD数据集上表现出色,在多个修辞任务上取得了最佳性能。通过联合微调多个任务,模型的性能得到了进一步提升,例如在修辞识别任务上准确率提升了X%。这些结果验证了CERD数据集的有效性,并为未来的修辞研究提供了有价值的基准。
🎯 应用场景
CERD数据集可⼴泛应⽤于⾃动写作、语⾔学习、⽂本⽣成等领域。通过训练模型理解和⽣成修辞,可以辅助⼈类写作,提⾼⽂章的表达⼒和感染⼒。此外,该数据集还可以⽤于开发智能语⾔学习⼯具,帮助学习者更好地理解和运⽤修辞⼿法。未来,CERD有望推动⾃然语⾔处理技术在⽂学创作和语⾔教育领域的应⽤。
📄 摘要(原文)
Existing rhetorical understanding and generation datasets or corpora primarily focus on single coarse-grained categories or fine-grained categories, neglecting the common interrelations between different rhetorical devices by treating them as independent sub-tasks. In this paper, we propose the Chinese Essay Rhetoric Dataset (CERD), consisting of 4 commonly used coarse-grained categories including metaphor, personification, hyperbole and parallelism and 23 fine-grained categories across both form and content levels. CERD is a manually annotated and comprehensive Chinese rhetoric dataset with five interrelated sub-tasks. Unlike previous work, our dataset aids in understanding various rhetorical devices, recognizing corresponding rhetorical components, and generating rhetorical sentences under given conditions, thereby improving the author's writing proficiency and language usage skills. Extensive experiments are conducted to demonstrate the interrelations between multiple tasks in CERD, as well as to establish a benchmark for future research on rhetoric. The experimental results indicate that Large Language Models achieve the best performance across most tasks, and jointly fine-tuning with multiple tasks further enhances performance.