Ideology-Based LLMs for Content Moderation

📄 arXiv: 2510.25805v1 📥 PDF

作者: Stefano Civelli, Pietro Bernardelle, Nardiena A. Pratama, Gianluca Demartini

分类: cs.CL

发布日期: 2025-10-29


💡 一句话要点

研究表明,基于意识形态的角色扮演会使LLM在内容审核中产生偏差。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 内容审核 意识形态偏差 角色扮演 公平性 中立性

📋 核心要点

  1. 内容审核系统依赖LLM,但现有方法难以保证公平性和中立性,可能存在潜在的意识形态偏见。
  2. 该研究通过让LLM扮演具有不同意识形态的角色,观察其在有害内容分类上的行为差异,揭示潜在偏见。
  3. 实验发现,角色扮演会影响LLM的判断,使其更倾向于与自身意识形态一致,并可能放大不同意识形态间的差异。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于内容审核系统,在这些系统中,确保公平性和中立性至关重要。本研究探讨了角色扮演如何影响不同LLM架构、模型大小和内容模态(语言与视觉)下有害内容分类的一致性和公平性。表面上看,主要性能指标表明角色扮演对整体分类准确率影响不大。然而,更深入的分析揭示了重要的行为转变。具有不同意识形态倾向的角色在标记内容为有害内容时表现出不同的倾向,表明模型“看待”输入的视角会微妙地影响其判断。进一步的一致性分析表明,模型,尤其是较大的模型,倾向于更紧密地与来自相同政治意识形态的角色保持一致,从而加强意识形态内部的一致性,同时扩大跨意识形态群体的差异。为了更直接地展示这种影响,我们对一项具有政治针对性的任务进行了额外的研究,证实了角色不仅在他们自己的意识形态中表现得更加连贯,而且还表现出捍卫他们的观点,同时淡化对立观点中的有害性的倾向。总之,这些发现突出了角色条件如何将微妙的意识形态偏差引入LLM输出中,从而引发了人们对使用可能在表面中立的伪装下强化党派观点的AI系统的担忧。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在内容审核任务中,由于角色扮演(persona adoption)而产生的意识形态偏差问题。现有方法在确保LLM的公平性和中立性方面存在不足,尤其是在处理涉及政治或意识形态的内容时,LLM可能会受到训练数据或预设偏见的影响,导致审核结果不公正。

核心思路:论文的核心思路是通过让LLM扮演具有不同意识形态的角色,观察其在有害内容分类任务中的行为差异。通过分析不同角色扮演下LLM的判断倾向、一致性以及对不同意识形态观点的反应,从而揭示角色扮演对LLM输出的潜在影响。这种方法旨在模拟真实世界中人类审核员可能存在的认知偏差,并评估LLM是否也会受到类似影响。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择不同的LLM架构和模型大小;2) 定义具有不同意识形态倾向的角色;3) 构建包含语言和视觉模态的有害内容数据集;4) 让LLM扮演不同角色对数据集进行分类;5) 分析分类结果,评估角色扮演对LLM判断的影响,包括准确率、一致性和意识形态倾向。此外,还设计了一个政治针对性的任务,以更直接地评估LLM在不同角色扮演下对政治观点的反应。

关键创新:该研究的关键创新在于:1) 首次系统性地研究了角色扮演对LLM在内容审核任务中意识形态偏差的影响;2) 揭示了角色扮演会影响LLM的判断,使其更倾向于与自身意识形态一致,并可能放大不同意识形态间的差异;3) 通过政治针对性的任务,更直接地验证了LLM在不同角色扮演下对政治观点的反应。

关键设计:研究中,角色的意识形态倾向通过预定义的描述性文本来设定,例如“自由主义者”、“保守主义者”等。有害内容数据集包含语言和视觉两种模态,涵盖各种类型的有害内容,如仇恨言论、暴力内容等。在政治针对性的任务中,数据集包含不同政治立场的观点,并要求LLM评估这些观点的有害程度。一致性分析采用Cohen's Kappa等指标来评估不同角色扮演下LLM判断的一致性。

📊 实验亮点

实验结果表明,角色扮演对LLM的有害内容分类结果产生显著影响。虽然整体准确率变化不大,但不同意识形态的角色扮演会导致LLM在判断倾向和一致性上出现明显差异。大型模型更倾向于与相同意识形态的角色保持一致,并可能放大不同意识形态间的差异。在政治针对性任务中,LLM表现出捍卫自身意识形态观点,淡化对立观点有害性的倾向。

🎯 应用场景

该研究成果可应用于改进内容审核系统,降低LLM的意识形态偏见,提高审核的公平性和中立性。有助于开发更可靠、负责任的AI系统,避免强化社会偏见和歧视。同时,该研究也为LLM的风险评估和安全治理提供了新的视角。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in content moderation systems, where ensuring fairness and neutrality is essential. In this study, we examine how persona adoption influences the consistency and fairness of harmful content classification across different LLM architectures, model sizes, and content modalities (language vs. vision). At first glance, headline performance metrics suggest that personas have little impact on overall classification accuracy. However, a closer analysis reveals important behavioral shifts. Personas with different ideological leanings display distinct propensities to label content as harmful, showing that the lens through which a model "views" input can subtly shape its judgments. Further agreement analyses highlight that models, particularly larger ones, tend to align more closely with personas from the same political ideology, strengthening within-ideology consistency while widening divergence across ideological groups. To show this effect more directly, we conducted an additional study on a politically targeted task, which confirmed that personas not only behave more coherently within their own ideology but also exhibit a tendency to defend their perspective while downplaying harmfulness in opposing views. Together, these findings highlight how persona conditioning can introduce subtle ideological biases into LLM outputs, raising concerns about the use of AI systems that may reinforce partisan perspectives under the guise of neutrality.