The Moral Foundations Weibo Corpus
作者: Renjie Cao, Miaoyan Hu, Jiahan Wei, Baha Ihnaini
分类: cs.CL, cs.LG
发布日期: 2024-11-14
💡 一句话要点
构建道德基础微博语料库,用于中文道德情感分析与模型训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 道德情感分析 中文语料库 微博 道德基础理论 自然语言处理
📋 核心要点
- 现有语料库在中文道德情感分析方面存在语言限制,缺乏大规模高质量的标注数据。
- 构建包含25671条微博评论的语料库,并基于道德基础理论进行细粒度的人工标注。
- 利用大型语言模型进行实验,评估模型性能并提供基线结果,为后续研究奠定基础。
📝 摘要(中文)
自然语言中表达的道德情感对线上和线下环境产生显著影响,塑造行为方式和互动模式,包括社交媒体自我展示、网络欺凌、对社会规范的遵守以及伦理决策。为了有效衡量自然语言处理文本中的道德情感,至关重要的是利用大型、带注释的数据集,以便为准确的分析和模型训练提供细致的理解。然而,现有的语料库虽然有价值,但往往面临语言限制。为了弥补中文领域的这一空白,我们推出了道德基础微博语料库。该语料库包含25671条来自微博的中文评论,涵盖六个不同的主题领域。每条评论都由至少三名经过系统训练的注释员根据源于道德扎根理论的十个道德类别进行手动注释。为了评估注释者可靠性,我们展示了kappa测试结果,这是衡量一致性的黄金标准。此外,我们应用了几种最新的大型语言模型来补充手动注释,进行分析实验以比较它们的性能,并报告道德情感分类的基线结果。
🔬 方法详解
问题定义:论文旨在解决中文自然语言处理中缺乏大规模、高质量的道德情感分析语料库的问题。现有方法在中文领域面临数据稀缺和标注细粒度不足的挑战,难以支持对道德情感的深入理解和准确建模。
核心思路:论文的核心思路是构建一个大规模的中文微博语料库,并基于道德基础理论(Moral Foundations Theory)进行细粒度的道德情感标注。通过人工标注和大型语言模型辅助,提供高质量的训练数据,促进中文道德情感分析的研究。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:从微博平台收集包含六个不同主题领域的25671条中文评论。2) 标注体系构建:基于道德基础理论,定义十个道德类别作为标注标签。3) 人工标注:由至少三名经过系统训练的注释员对每条评论进行标注。4) 注释质量评估:使用Kappa系数评估注释者之间的一致性。5) 模型实验:应用大型语言模型进行道德情感分类,并与人工标注结果进行比较。
关键创新:该论文的关键创新在于构建了一个大规模、高质量的中文道德基础微博语料库,并提供了细粒度的道德情感标注。该语料库的构建基于扎根理论的道德基础理论,能够更全面地捕捉中文文本中的道德情感。此外,论文还利用大型语言模型进行实验,为后续研究提供了基线结果。
关键设计:在标注过程中,论文采用了至少三名注释员进行交叉标注,并通过Kappa系数评估标注质量,保证了标注的可靠性。在模型实验中,论文选择了多个最新的大型语言模型,并进行了详细的性能比较。具体的参数设置和网络结构等技术细节在论文中未详细说明,属于未知信息。
📊 实验亮点
论文构建的道德基础微博语料库包含25671条中文评论,涵盖六个主题领域,并由至少三名注释员进行标注。Kappa测试结果显示注释者之间具有较高的一致性。通过实验,论文提供了基于大型语言模型的道德情感分类基线结果,为后续研究提供了参考。
🎯 应用场景
该研究成果可应用于舆情监控、网络欺凌检测、社会规范理解、伦理决策支持等领域。通过分析社交媒体文本中的道德情感,可以更好地理解社会舆论走向,及时发现和干预网络欺凌行为,促进社会和谐发展。未来,该语料库可用于训练更强大的道德情感分析模型,为相关应用提供更准确的支持。
📄 摘要(原文)
Moral sentiments expressed in natural language significantly influence both online and offline environments, shaping behavioral styles and interaction patterns, including social media selfpresentation, cyberbullying, adherence to social norms, and ethical decision-making. To effectively measure moral sentiments in natural language processing texts, it is crucial to utilize large, annotated datasets that provide nuanced understanding for accurate analysis and modeltraining. However, existing corpora, while valuable, often face linguistic limitations. To address this gap in the Chinese language domain,we introduce the Moral Foundation Weibo Corpus. This corpus consists of 25,671 Chinese comments on Weibo, encompassing six diverse topic areas. Each comment is manually annotated by at least three systematically trained annotators based on ten moral categories derived from a grounded theory of morality. To assess annotator reliability, we present the kappa testresults, a gold standard for measuring consistency. Additionally, we apply several the latest large language models to supplement the manual annotations, conducting analytical experiments to compare their performance and report baseline results for moral sentiment classification.