DimStance: Multilingual Datasets for Dimensional Stance Analysis
作者: Jonas Becker, Liang-Chih Yu, Shamsuddeen Hassan Muhammad, Jan Philip Wahle, Terry Ruas, Idris Abdulmumin, Lung-Hao Lee, Wen-Ni Liu, Tzu-Mi Lin, Zhe-Yu Xu, Ying-Lung Lin, Jin Wang, Maryam Ibrahim Mukhtar, Bela Gipp, Saif M. Mohammed
分类: cs.CL
发布日期: 2026-01-29
💡 一句话要点
DimStance:提出多语言情感维度立场分析数据集,用于细粒度情感感知立场检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 立场检测 情感分析 多语言 维度建模 自然语言处理
📋 核心要点
- 现有立场检测方法主要关注分类立场,忽略了情感细微差别,限制了对立场深层含义的理解。
- DimStance通过引入效价-唤醒度(VA)维度,捕捉立场表达的情感细微差别,实现细粒度立场分析。
- 实验结果表明,微调的大型语言模型在立场VA预测任务中表现出竞争力,但低资源语言仍面临挑战。
📝 摘要(中文)
立场检测是一项已确定的任务,旨在将作者对特定目标的态度分类为赞成、中立和反对等类别。除了分类立场标签之外,我们利用长期建立的情感科学框架,沿着效价(负面-正面)和唤醒度(平静-活跃)的实值维度对立场进行建模。这种维度方法捕捉了立场表达背后细微的情感状态,从而实现细粒度的立场分析。为此,我们推出了DimStance,这是第一个带有效价-唤醒度(VA)注释的维度立场资源。该资源包含五种语言(英语、德语、中文、尼日利亚皮钦语和斯瓦希里语)和两个领域(政治和环境保护)的7365个文本中的11746个目标方面。为了促进立场VA预测的评估,我们制定了维度立场回归任务,分析了跨语言的VA模式,并对回归和提示设置下的预训练和大型语言模型进行了基准测试。结果表明,微调的LLM回归器具有竞争力的性能,低资源语言中存在持续的挑战,以及基于token生成方法的局限性。DimStance为多语言、情感感知的立场分析和基准测试提供了基础。
🔬 方法详解
问题定义:论文旨在解决传统立场检测方法无法捕捉情感细微差别的问题。现有方法通常将立场简单地划分为“赞成”、“反对”或“中立”等类别,忽略了立场背后复杂的情感状态。这种粗粒度的分类方式限制了对立场深层含义的理解,也无法满足一些需要精细情感分析的应用场景。
核心思路:论文的核心思路是利用情感科学中的效价(Valence)和唤醒度(Arousal)两个维度来对立场进行建模。效价代表情感的正负程度,唤醒度代表情感的激活程度。通过这两个维度,可以更细致地描述立场的情感状态,例如,一个“赞成”的立场可以是积极且活跃的,也可以是积极但平静的。这种维度化的方法能够捕捉到传统分类方法无法捕捉到的情感细微差别。
技术框架:DimStance数据集构建的整体流程包括:文本收集、目标方面提取、人工标注(效价和唤醒度)、数据清洗和验证。论文提出了维度立场回归任务,并使用预训练语言模型和大型语言模型进行基准测试。测试方法包括直接回归和提示学习两种方式。
关键创新:该论文的关键创新在于提出了维度立场分析的概念,并构建了相应的多语言数据集DimStance。与传统的分类立场分析相比,维度立场分析能够捕捉到立场表达背后更细微的情感状态。此外,DimStance数据集涵盖了多种语言和领域,为跨语言和跨领域的立场分析研究提供了基础。
关键设计:DimStance数据集的标注采用了众包的方式,并进行了严格的质量控制。标注人员需要根据给定的文本和目标方面,评估作者在该目标方面的效价和唤醒度。论文使用了预训练的语言模型(如BERT)和大型语言模型(如GPT-3)作为基线模型,并针对维度立场回归任务进行了微调。损失函数采用均方误差(MSE)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过微调的大型语言模型在DimStance数据集上取得了具有竞争力的性能。例如,在英文数据集上,微调的RoBERTa模型在效价和唤醒度预测任务上均取得了较好的结果。然而,在低资源语言(如尼日利亚皮钦语和斯瓦希里语)上,模型的性能仍然有待提高,这表明在这些语言上进行立场分析仍然面临挑战。
🎯 应用场景
DimStance数据集和维度立场分析方法可应用于舆情监控、情感营销、政治传播分析等领域。通过分析用户在社交媒体上的立场及其情感状态,可以更好地了解公众对特定事件或人物的看法,为决策提供参考。此外,该方法还可以用于检测虚假信息和网络欺凌,构建更健康的网络环境。
📄 摘要(原文)
Stance detection is an established task that classifies an author's attitude toward a specific target into categories such as Favor, Neutral, and Against. Beyond categorical stance labels, we leverage a long-established affective science framework to model stance along real-valued dimensions of valence (negative-positive) and arousal (calm-active). This dimensional approach captures nuanced affective states underlying stance expressions, enabling fine-grained stance analysis. To this end, we introduce DimStance, the first dimensional stance resource with valence-arousal (VA) annotations. This resource comprises 11,746 target aspects in 7,365 texts across five languages (English, German, Chinese, Nigerian Pidgin, and Swahili) and two domains (politics and environmental protection). To facilitate the evaluation of stance VA prediction, we formulate the dimensional stance regression task, analyze cross-lingual VA patterns, and benchmark pretrained and large language models under regression and prompting settings. Results show competitive performance of fine-tuned LLM regressors, persistent challenges in low-resource languages, and limitations of token-based generation. DimStance provides a foundation for multilingual, emotion-aware, stance analysis and benchmarking.