Policy-as-Prompt: Rethinking Content Moderation in the Age of Large Language Models
作者: Konstantina Palla, José Luis Redondo García, Claudia Hauff, Francesco Fabbri, Henrik Lindström, Daniel R. Taber, Andreas Damianou, Mounia Lalmas
分类: cs.CY, cs.AI, cs.SI
发布日期: 2025-02-25
备注: 14 pages, 5 figures
💡 一句话要点
提出Policy-as-Prompt框架,利用大语言模型革新内容审核方式。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 内容审核 大型语言模型 Policy-as-Prompt 自然语言处理 在线平台
📋 核心要点
- 传统内容审核依赖人工或机器学习模型,需大量数据标注和人工干预,效率和灵活性受限。
- 论文提出Policy-as-Prompt框架,利用LLM直接理解政策文本,实现动态、灵活的内容审核。
- 论文分析了该框架在技术、社会技术、组织和治理四个维度上的挑战,并提出了潜在的缓解方法。
📝 摘要(中文)
内容审核在构建安全和包容的在线环境中起着关键作用,它需要平衡平台标准、用户期望和监管框架。传统上,这一过程涉及将政策转化为指南,然后由人工审核员执行,或用于标注数据集以训练机器学习审核模型。然而,大型语言模型(LLM)的最新进展正在改变这一局面。这些模型现在可以直接将策略解释为文本输入,从而无需大量的数据管理。这种方法提供了前所未有的灵活性,因为可以通过自然语言交互动态调整审核。这种范式转变引发了关于如何实施政策以及对内容审核实践的影响的重要问题。在本文中,我们形式化了新兴的policy-as-prompt框架,并确定了四个领域中的五个关键挑战:技术实施、社会技术、组织和治理。通过分析这些挑战,我们讨论了潜在的缓解方法。这项研究为从业者提供了可操作的见解,并为未来探索数字生态系统中可扩展和自适应的内容审核系统奠定了基础。
🔬 方法详解
问题定义:现有内容审核方法依赖于将政策转化为具体的审核指南,再由人工审核员或机器学习模型执行。这种方法需要大量的人工标注数据,并且难以适应不断变化的政策和环境。此外,人工审核容易出现偏差,而机器学习模型则可能受到训练数据的限制。
核心思路:论文的核心思路是将内容审核政策直接作为提示(Prompt)输入到大型语言模型(LLM)中,利用LLM强大的自然语言理解能力,直接判断内容是否违反政策。这种方法避免了人工标注数据的需求,并且可以灵活地调整审核策略。
技术框架:Policy-as-Prompt框架的核心是利用LLM进行内容审核。用户输入内容,系统将内容和相关的审核政策作为Prompt输入到LLM中。LLM根据Prompt判断内容是否违反政策,并输出审核结果。框架还包括对Prompt的设计和优化,以及对LLM输出结果的评估和改进。
关键创新:最重要的技术创新点在于将内容审核政策直接作为Prompt输入到LLM中,从而避免了人工标注数据的需求。与传统方法相比,Policy-as-Prompt框架更加灵活、高效,并且可以更好地适应不断变化的政策和环境。
关键设计:论文重点关注Prompt的设计,包括如何将政策转化为有效的Prompt,以及如何优化Prompt以提高LLM的审核准确率。此外,论文还探讨了如何评估LLM的审核结果,以及如何改进LLM的审核能力。
🖼️ 关键图片
📊 实验亮点
论文通过分析Policy-as-Prompt框架在技术、社会技术、组织和治理四个维度上的挑战,为从业者提供了可操作的见解。虽然论文没有提供具体的性能数据,但它为未来探索数字生态系统中可扩展和自适应的内容审核系统奠定了基础,并指出了未来研究的方向。
🎯 应用场景
该研究成果可应用于各种在线平台的内容审核,例如社交媒体、论坛、电商平台等。它可以帮助平台更有效地识别和过滤有害内容,维护健康的网络环境。此外,该框架还可以用于自动化政策制定和更新,提高内容审核的效率和一致性。未来,该研究有望推动内容审核技术的进一步发展,实现更加智能、高效和公平的内容审核。
📄 摘要(原文)
Content moderation plays a critical role in shaping safe and inclusive online environments, balancing platform standards, user expectations, and regulatory frameworks. Traditionally, this process involves operationalising policies into guidelines, which are then used by downstream human moderators for enforcement, or to further annotate datasets for training machine learning moderation models. However, recent advancements in large language models (LLMs) are transforming this landscape. These models can now interpret policies directly as textual inputs, eliminating the need for extensive data curation. This approach offers unprecedented flexibility, as moderation can be dynamically adjusted through natural language interactions. This paradigm shift raises important questions about how policies are operationalised and the implications for content moderation practices. In this paper, we formalise the emerging policy-as-prompt framework and identify five key challenges across four domains: Technical Implementation (1. translating policy to prompts, 2. sensitivity to prompt structure and formatting), Sociotechnical (3. the risk of technological determinism in policy formation), Organisational (4. evolving roles between policy and machine learning teams), and Governance (5. model governance and accountability). Through analysing these challenges across technical, sociotechnical, organisational, and governance dimensions, we discuss potential mitigation approaches. This research provides actionable insights for practitioners and lays the groundwork for future exploration of scalable and adaptive content moderation systems in digital ecosystems.