Language, Culture, and Ideology: Personalizing Offensiveness Detection in Political Tweets with Reasoning LLMs

📄 arXiv: 2510.02351v1 📥 PDF

作者: Dzmitry Pihulski, Jan Kocoń

分类: cs.CL, cs.AI

发布日期: 2025-09-27

备注: To appear in the Proceedings of the IEEE International Conference on Data Mining Workshops (ICDMW)


💡 一句话要点

利用推理LLM个性化政治推文冒犯性检测,考虑语言、文化和意识形态因素

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 冒犯性检测 大型语言模型 政治推文 文化差异 意识形态 推理能力 个性化 多语言

📋 核心要点

  1. 现有方法在政治推文冒犯性检测中,难以有效捕捉不同文化和意识形态背景下的细微差别。
  2. 论文提出利用具备推理能力的大型语言模型,通过模拟不同政治人物的视角,实现个性化的冒犯性判断。
  3. 实验结果表明,具有推理能力的LLM在跨语言和意识形态的冒犯性判断中表现出更高的准确性和一致性。

📝 摘要(中文)

本文探讨了大型语言模型(LLM)在被要求采纳特定的政治和文化视角时,如何评估政治言论中的冒犯性。我们使用MD-Agreement数据集的多语言子集,该子集以2020年美国大选的推文为中心,评估了几种最新的LLM——包括DeepSeek-R1、o4-mini、GPT-4.1-mini、Qwen3、Gemma和Mistral——的任务是从不同政治人物(极右、保守派、中间派、进步派)的观点判断推文是冒犯性的还是非冒犯性的,涵盖英语、波兰语和俄语环境。我们的结果表明,具有显式推理能力的较大模型(例如,DeepSeek-R1、o4-mini)在意识形态和文化变异方面更加一致和敏感,而较小的模型通常无法捕捉到细微的差别。我们发现,推理能力显著提高了冒犯性判断的个性化和可解释性,这表明这种机制是使LLM适应跨语言和意识形态的细致的社会政治文本分类的关键。

🔬 方法详解

问题定义:论文旨在解决政治推文中冒犯性检测的个性化问题,即如何使LLM能够根据不同的政治和文化视角来判断同一条推文是否具有冒犯性。现有方法通常忽略了意识形态和文化背景对冒犯性判断的影响,导致模型在跨文化和跨意识形态场景下的泛化能力较差。

核心思路:论文的核心思路是利用大型语言模型的推理能力,通过prompting的方式,让模型扮演不同的政治角色,从而模拟不同视角下的冒犯性判断。这种方法能够使模型更好地理解文本中的细微差别,并考虑到不同文化和意识形态背景下的差异。

技术框架:整体框架包括以下几个主要步骤:1) 数据集准备:使用MD-Agreement数据集的多语言子集,该子集包含来自2020年美国大选的推文,并标注了不同政治立场的冒犯性判断结果。2) 模型选择:选择多个大型语言模型,包括DeepSeek-R1、o4-mini、GPT-4.1-mini、Qwen3、Gemma和Mistral。3) Prompt设计:设计不同的prompt,引导模型扮演不同的政治角色(极右、保守派、中间派、进步派)。4) 冒犯性判断:使用prompted LLM对推文进行冒犯性判断。5) 结果评估:评估模型在不同政治立场下的判断结果,并分析其一致性和准确性。

关键创新:论文的关键创新在于利用LLM的推理能力进行个性化的冒犯性检测。与传统的文本分类方法相比,该方法能够更好地捕捉到不同文化和意识形态背景下的细微差别,从而提高模型的泛化能力和可解释性。

关键设计:论文的关键设计包括:1) 选择具有较强推理能力的大型语言模型,例如DeepSeek-R1和o4-mini。2) 设计清晰明确的prompt,引导模型扮演不同的政治角色。3) 使用多语言数据集,评估模型在不同语言环境下的表现。4) 采用多种评估指标,包括准确率、一致性和可解释性,全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,具有显式推理能力的较大模型(例如,DeepSeek-R1、o4-mini)在意识形态和文化变异方面更加一致和敏感,而较小的模型通常无法捕捉到细微的差别。推理能力显著提高了冒犯性判断的个性化和可解释性。例如,DeepSeek-R1在多语言环境下的表现优于其他模型,表明其具有更强的跨文化理解能力。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、舆情分析和个性化推荐等领域。通过利用LLM的推理能力,可以更准确地识别和过滤有害信息,提高内容审核的效率和准确性。此外,该研究还可以帮助用户更好地理解不同政治立场下的观点,促进跨文化交流和理解。

📄 摘要(原文)

We explore how large language models (LLMs) assess offensiveness in political discourse when prompted to adopt specific political and cultural perspectives. Using a multilingual subset of the MD-Agreement dataset centered on tweets from the 2020 US elections, we evaluate several recent LLMs - including DeepSeek-R1, o4-mini, GPT-4.1-mini, Qwen3, Gemma, and Mistral - tasked with judging tweets as offensive or non-offensive from the viewpoints of varied political personas (far-right, conservative, centrist, progressive) across English, Polish, and Russian contexts. Our results show that larger models with explicit reasoning abilities (e.g., DeepSeek-R1, o4-mini) are more consistent and sensitive to ideological and cultural variation, while smaller models often fail to capture subtle distinctions. We find that reasoning capabilities significantly improve both the personalization and interpretability of offensiveness judgments, suggesting that such mechanisms are key to adapting LLMs for nuanced sociopolitical text classification across languages and ideologies.