FarExStance: Explainable Stance Detection for Farsi

📄 arXiv: 2412.14008v1 📥 PDF

作者: Majid Zarharan, Maryam Hashemi, Malika Behroozrazegh, Sauleh Eetemadi, Mohammad Taher Pilehvar, Jennifer Foster

分类: cs.CL

发布日期: 2024-12-18

备注: Accepted in COLING 2025


💡 一句话要点

FarExStance:提出用于波斯语的可解释立场检测数据集与基线模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立场检测 可解释性 波斯语 数据集 大型语言模型

📋 核心要点

  1. 现有波斯语立场检测缺乏可解释性,难以验证模型决策依据。
  2. 构建FarExStance数据集,包含立场标签和抽取式解释,为模型提供依据。
  3. 实验表明,微调RoBERTa、Aya系列LLM和少样本Claude-3.5在立场检测和解释生成上表现优异。

📝 摘要(中文)

本文介绍了一个新的波斯语可解释立场检测数据集FarExStance。该数据集的每个实例包含一个论断、一篇文章或社交媒体帖子对该论断的立场,以及提供立场标签证据的抽取式解释。本文比较了微调的多语言RoBERTa模型与多个大型语言模型在零样本、少样本和参数高效微调设置下,在该数据集上的性能。在立场检测方面,最准确的模型是微调的RoBERTa模型、使用参数高效微调的LLM Aya-23-8B以及少样本的Claude-3.5-Sonnet。关于解释的质量,自动评估指标表明少样本GPT-4o生成了最连贯的解释,而人工评估显示最佳的总体解释得分(OES)属于少样本Claude-3.5-Sonnet。微调的Aya-32-8B模型生成的解释与参考解释最为一致。

🔬 方法详解

问题定义:论文旨在解决波斯语立场检测中缺乏可解释性的问题。现有方法通常只给出立场判断,而无法提供支持该判断的证据,这限制了模型的可信度和应用范围。因此,需要一种能够同时预测立场和提供解释的方法。

核心思路:论文的核心思路是通过构建一个包含立场标签和对应解释的数据集,来训练模型学习立场判断和解释生成之间的关系。模型不仅需要预测文本对特定论断的立场,还需要从文本中抽取证据来解释其立场判断。这样可以提高模型的可解释性和可信度。

技术框架:整体框架包括数据集构建和模型评估两个主要部分。数据集构建涉及收集包含论断、文本和立场标签的数据,并人工标注抽取式解释。模型评估则包括在FarExStance数据集上评估不同模型的立场检测和解释生成性能。评估的模型包括微调的RoBERTa模型和多个大型语言模型,评估设置包括零样本、少样本和参数高效微调。

关键创新:论文的关键创新在于构建了FarExStance数据集,这是首个用于波斯语可解释立场检测的数据集。该数据集不仅包含立场标签,还包含抽取式解释,为模型学习可解释的立场判断提供了数据基础。此外,论文还对不同模型的立场检测和解释生成性能进行了全面评估,为后续研究提供了基准。

关键设计:在模型评估方面,论文采用了多种评估指标来衡量立场检测和解释生成性能。对于立场检测,采用了准确率等指标。对于解释生成,采用了自动评估指标(如ROUGE)和人工评估指标(如总体解释得分OES)。在模型训练方面,论文采用了参数高效微调技术,以减少大型语言模型的训练成本。

📊 实验亮点

实验结果表明,微调的RoBERTa模型、参数高效微调的Aya-23-8B模型和少样本的Claude-3.5-Sonnet在立场检测方面表现出色。少样本GPT-4o生成了最连贯的解释,而少样本Claude-3.5-Sonnet在人工评估中获得了最佳的总体解释得分。微调的Aya-32-8B模型生成的解释与参考解释最为一致。

🎯 应用场景

该研究成果可应用于舆情分析、虚假信息检测、新闻可信度评估等领域。通过提供可解释的立场判断,帮助用户更好地理解信息内容,提高决策的准确性和效率。未来可扩展到其他语言和领域,构建更通用、更可靠的可解释立场检测系统。

📄 摘要(原文)

We introduce FarExStance, a new dataset for explainable stance detection in Farsi. Each instance in this dataset contains a claim, the stance of an article or social media post towards that claim, and an extractive explanation which provides evidence for the stance label. We compare the performance of a fine-tuned multilingual RoBERTa model to several large language models in zero-shot, few-shot, and parameter-efficient fine-tuned settings on our new dataset. On stance detection, the most accurate models are the fine-tuned RoBERTa model, the LLM Aya-23-8B which has been fine-tuned using parameter-efficient fine-tuning, and few-shot Claude-3.5-Sonnet. Regarding the quality of the explanations, our automatic evaluation metrics indicate that few-shot GPT-4o generates the most coherent explanations, while our human evaluation reveals that the best Overall Explanation Score (OES) belongs to few-shot Claude-3.5-Sonnet. The fine-tuned Aya-32-8B model produced explanations most closely aligned with the reference explanations.