A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media
作者: Jiaqing Yuan, Ruijie Xi, Munindar P. Singh
分类: cs.CL, cs.AI
发布日期: 2024-10-11 (更新: 2024-11-15)
备注: Accepted by AAAI ICWSM 2025
💡 一句话要点
提出一种基于平台规则和LLM的多领域论证立场分类基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 论证立场分类 跨领域学习 自然语言处理 大型语言模型 数据集构建
📋 核心要点
- 现有论证立场分类基准数据集缺乏多样性,主要集中于单一领域或少量主题,限制了模型的泛化能力。
- 该论文提出利用平台规则、专家内容和大型语言模型自动构建多领域论证立场分类数据集,避免了耗时的人工标注。
- 通过在构建的数据集上进行充分监督、零样本和少样本实验,评估了不同方法的性能,并分析了其优缺点。
📝 摘要(中文)
论证立场分类在识别作者对特定主题的观点方面起着关键作用。然而,跨多个领域生成多样化的论证句对具有挑战性。现有的基准通常来自单一领域或侧重于有限的主题集。此外,手动标注以获得准确的标签既耗时又费力。为了应对这些挑战,我们提出利用平台规则、现成的专家策划内容和大型语言模型来绕过人工标注的需要。我们的方法产生了一个多领域基准,包含来自三个来源的4,498个主题主张和30,961个论点,涵盖21个领域。我们在完全监督、零样本和少样本设置中对数据集进行基准测试,揭示了不同方法的优势和局限性。我们在本研究中发布了数据集和代码(已隐藏以保持匿名性)。
🔬 方法详解
问题定义:论文旨在解决跨领域论证立场分类任务中,缺乏高质量、多样性数据集的问题。现有数据集通常局限于单一领域,难以训练出泛化能力强的模型。人工标注成本高昂,效率低下。
核心思路:论文的核心思路是利用平台规则、专家策划内容和大型语言模型,自动构建一个多领域的论证立场分类数据集。通过这种方式,可以避免人工标注的成本,并获得更大规模、更多样化的数据。
技术框架:整体框架包括以下几个步骤:1) 数据收集:从多个平台(具体平台未知)收集数据,这些平台具有明确的规则和专家策划的内容。2) 数据清洗和预处理:根据平台规则过滤掉不相关或质量较差的数据。3) 论证立场标注:利用大型语言模型(具体模型未知)对论证立场进行自动标注。4) 数据集构建:将标注好的数据整理成可用于训练和评估的格式。
关键创新:该论文的关键创新在于提出了一种自动构建多领域论证立场分类数据集的方法,该方法无需人工标注,可以快速生成大规模、多样化的数据集。这使得研究者可以更容易地训练出泛化能力强的论证立场分类模型。
关键设计:论文中关于数据集构建的具体参数设置、损失函数、网络结构等技术细节未知。但可以推测,在利用大型语言模型进行自动标注时,可能需要设计合适的prompt,并对模型的输出进行后处理,以提高标注的准确性。
🖼️ 关键图片
📊 实验亮点
该论文构建了一个包含4,498个主题主张和30,961个论点的多领域论证立场分类数据集,涵盖21个领域。通过在完全监督、零样本和少样本设置下进行实验,评估了不同方法的性能,并分析了其优缺点。具体的性能数据和提升幅度在论文中未明确给出。
🎯 应用场景
该研究成果可应用于舆情分析、智能客服、在线辩论等领域。通过自动识别用户对特定话题的立场,可以更好地理解用户需求,提供个性化服务,并促进更有效的沟通和交流。未来,该方法可以扩展到更多领域,例如政治、经济、社会等。
📄 摘要(原文)
Argumentative stance classification plays a key role in identifying authors' viewpoints on specific topics. However, generating diverse pairs of argumentative sentences across various domains is challenging. Existing benchmarks often come from a single domain or focus on a limited set of topics. Additionally, manual annotation for accurate labeling is time-consuming and labor-intensive. To address these challenges, we propose leveraging platform rules, readily available expert-curated content, and large language models to bypass the need for human annotation. Our approach produces a multidomain benchmark comprising 4,498 topical claims and 30,961 arguments from three sources, spanning 21 domains. We benchmark the dataset in fully supervised, zero-shot, and few-shot settings, shedding light on the strengths and limitations of different methodologies. We release the dataset and code in this study at hidden for anonymity.