FarExStance: Explainable Stance Detection for Farsi

作者: Majid Zarharan, Maryam Hashemi, Malika Behroozrazegh, Sauleh Eetemadi, Mohammad Taher Pilehvar, Jennifer Foster

分类: cs.CL

发布日期: 2024-12-18

备注: Accepted in COLING 2025

💡 一句话要点

FarExStance：提出用于波斯语的可解释立场检测数据集与基线模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 立场检测 可解释性 波斯语 数据集 大型语言模型

📋 核心要点

现有波斯语立场检测缺乏可解释性，难以验证模型决策依据。
构建FarExStance数据集，包含立场标签和抽取式解释，为模型提供依据。
实验表明，微调RoBERTa、Aya系列LLM和少样本Claude-3.5在立场检测和解释生成上表现优异。

📝 摘要（中文）

本文介绍了一个新的波斯语可解释立场检测数据集FarExStance。该数据集的每个实例包含一个论断、一篇文章或社交媒体帖子对该论断的立场，以及提供立场标签证据的抽取式解释。本文比较了微调的多语言RoBERTa模型与多个大型语言模型在零样本、少样本和参数高效微调设置下，在该数据集上的性能。在立场检测方面，最准确的模型是微调的RoBERTa模型、使用参数高效微调的LLM Aya-23-8B以及少样本的Claude-3.5-Sonnet。关于解释的质量，自动评估指标表明少样本GPT-4o生成了最连贯的解释，而人工评估显示最佳的总体解释得分(OES)属于少样本Claude-3.5-Sonnet。微调的Aya-32-8B模型生成的解释与参考解释最为一致。

🔬 方法详解

问题定义：论文旨在解决波斯语立场检测中缺乏可解释性的问题。现有方法通常只给出立场判断，而无法提供支持该判断的证据，这限制了模型的可信度和应用范围。因此，需要一种能够同时预测立场和提供解释的方法。

核心思路：论文的核心思路是通过构建一个包含立场标签和对应解释的数据集，来训练模型学习立场判断和解释生成之间的关系。模型不仅需要预测文本对特定论断的立场，还需要从文本中抽取证据来解释其立场判断。这样可以提高模型的可解释性和可信度。

技术框架：整体框架包括数据集构建和模型评估两个主要部分。数据集构建涉及收集包含论断、文本和立场标签的数据，并人工标注抽取式解释。模型评估则包括在FarExStance数据集上评估不同模型的立场检测和解释生成性能。评估的模型包括微调的RoBERTa模型和多个大型语言模型，评估设置包括零样本、少样本和参数高效微调。

关键创新：论文的关键创新在于构建了FarExStance数据集，这是首个用于波斯语可解释立场检测的数据集。该数据集不仅包含立场标签，还包含抽取式解释，为模型学习可解释的立场判断提供了数据基础。此外，论文还对不同模型的立场检测和解释生成性能进行了全面评估，为后续研究提供了基准。

关键设计：在模型评估方面，论文采用了多种评估指标来衡量立场检测和解释生成性能。对于立场检测，采用了准确率等指标。对于解释生成，采用了自动评估指标（如ROUGE）和人工评估指标（如总体解释得分OES）。在模型训练方面，论文采用了参数高效微调技术，以减少大型语言模型的训练成本。

📊 实验亮点

实验结果表明，微调的RoBERTa模型、参数高效微调的Aya-23-8B模型和少样本的Claude-3.5-Sonnet在立场检测方面表现出色。少样本GPT-4o生成了最连贯的解释，而少样本Claude-3.5-Sonnet在人工评估中获得了最佳的总体解释得分。微调的Aya-32-8B模型生成的解释与参考解释最为一致。

🎯 应用场景

该研究成果可应用于舆情分析、虚假信息检测、新闻可信度评估等领域。通过提供可解释的立场判断，帮助用户更好地理解信息内容，提高决策的准确性和效率。未来可扩展到其他语言和领域，构建更通用、更可靠的可解释立场检测系统。

📄 摘要（原文）

We introduce FarExStance, a new dataset for explainable stance detection in Farsi. Each instance in this dataset contains a claim, the stance of an article or social media post towards that claim, and an extractive explanation which provides evidence for the stance label. We compare the performance of a fine-tuned multilingual RoBERTa model to several large language models in zero-shot, few-shot, and parameter-efficient fine-tuned settings on our new dataset. On stance detection, the most accurate models are the fine-tuned RoBERTa model, the LLM Aya-23-8B which has been fine-tuned using parameter-efficient fine-tuning, and few-shot Claude-3.5-Sonnet. Regarding the quality of the explanations, our automatic evaluation metrics indicate that few-shot GPT-4o generates the most coherent explanations, while our human evaluation reveals that the best Overall Explanation Score (OES) belongs to few-shot Claude-3.5-Sonnet. The fine-tuned Aya-32-8B model produced explanations most closely aligned with the reference explanations.

FarExStance: Explainable Stance Detection for Farsi

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理