ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization

📄 arXiv: 2410.13667v1 📥 PDF

作者: Xiutian Zhao, Ke Wang, Wei Peng

分类: cs.CL

发布日期: 2024-10-17

备注: In EMNLP 2023

DOI: 10.18653/v1/2023.emnlp-main.582


💡 一句话要点

提出ORCHID中文辩论语料库,用于目标无关立场检测和辩论对话摘要。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文辩论语料库 立场检测 对话摘要 自然语言处理 辩论对话Agent

📋 核心要点

  1. 现有辩论对话Agent研究受限于中文数据集的匮乏,阻碍了立场检测和对话摘要等核心任务的发展。
  2. ORCHID数据集旨在填补中文辩论语料的空白,为目标无关立场检测和辩论摘要提供基准测试平台。
  3. 实验结果验证了ORCHID数据集的挑战性,并探索了立场检测辅助辩论摘要的潜在价值。

📝 摘要(中文)

本文提出了ORCHID,首个用于评估目标无关立场检测和辩论摘要的中文数据集。对话Agent近年来备受关注,大型语言模型(LLM)的进步进一步推动了这一趋势。立场检测和对话摘要是辩论场景中对话Agent的两项核心任务。然而,由于公共数据集的不足,特别是对于非英语语言,对这些任务的研究受到限制。ORCHID包含1218场真实中文辩论,涵盖476个独特主题,包含2436个特定立场的摘要和14133个完全标注的语句。除了为未来研究提供通用测试平台外,我们还对该数据集进行了实证研究,并提出了一个集成任务。结果表明了该数据集的挑战性,并表明了在辩论对话摘要中结合立场检测的潜力。

🔬 方法详解

问题定义:论文旨在解决中文辩论语料库不足的问题,现有方法缺乏针对中文辩论场景的有效数据集,限制了目标无关立场检测和辩论对话摘要的研究进展。缺乏高质量的中文辩论数据阻碍了相关算法的开发和评估。

核心思路:论文的核心思路是构建一个大规模、高质量的中文辩论语料库ORCHID,该语料库包含丰富的辩论数据,并针对目标无关立场检测和辩论对话摘要任务进行标注。通过提供这样一个数据集,可以促进相关算法的研究和发展。

技术框架:ORCHID数据集的构建流程主要包括数据收集、数据清洗、数据标注三个阶段。数据收集阶段从真实世界的辩论场景中收集辩论数据。数据清洗阶段对收集到的数据进行清洗和过滤,去除噪声数据。数据标注阶段对清洗后的数据进行标注,包括立场信息和摘要信息。数据集包含1218场辩论,476个主题,2436个立场特定摘要和14133个标注语句。

关键创新:ORCHID数据集是首个专门针对中文辩论场景构建的,并且同时支持目标无关立场检测和辩论对话摘要任务。与现有数据集相比,ORCHID数据集规模更大,标注更全面,更贴近真实世界的辩论场景。

关键设计:数据集的标注方案设计考虑了目标无关立场检测和辩论对话摘要任务的需求。立场标注采用了细粒度的立场分类体系,摘要标注采用了抽取式摘要方法。此外,论文还提出了一个集成任务,将立场检测和辩论对话摘要结合起来,探索两者之间的相互作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了ORCHID数据集的挑战性,并表明了在辩论对话摘要中结合立场检测的潜力。实验结果表明,现有模型在ORCHID数据集上的性能还有很大的提升空间。此外,论文还发现,将立场检测信息融入到摘要模型中可以提高摘要的质量。

🎯 应用场景

ORCHID数据集可应用于开发更智能的辩论对话Agent,例如自动辩论系统、智能客服等。这些Agent可以理解辩论参与者的立场,并生成相应的摘要,从而提高辩论效率和质量。此外,该数据集还可以用于研究中文自然语言处理技术,例如立场检测、文本摘要等。

📄 摘要(原文)

Dialogue agents have been receiving increasing attention for years, and this trend has been further boosted by the recent progress of large language models (LLMs). Stance detection and dialogue summarization are two core tasks of dialogue agents in application scenarios that involve argumentative dialogues. However, research on these tasks is limited by the insufficiency of public datasets, especially for non-English languages. To address this language resource gap in Chinese, we present ORCHID (Oral Chinese Debate), the first Chinese dataset for benchmarking target-independent stance detection and debate summarization. Our dataset consists of 1,218 real-world debates that were conducted in Chinese on 476 unique topics, containing 2,436 stance-specific summaries and 14,133 fully annotated utterances. Besides providing a versatile testbed for future research, we also conduct an empirical study on the dataset and propose an integrated task. The results show the challenging nature of the dataset and suggest a potential of incorporating stance detection in summarization for argumentative dialogue.