Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling

📄 arXiv: 2508.03296v1 📥 PDF

作者: Anqi Li, Wenwei Jin, Jintao Tong, Pengda Qin, Weijia Li, Guo Lu

分类: cs.CL, cs.LG

发布日期: 2025-08-05

🔗 代码/项目: GITHUB


💡 一句话要点

提出Hi-Guard以解决多模态内容审核的透明性与准确性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态审核 政策对齐 分层分类 内容安全 可解释性 机器学习 社交平台 人工智能

📋 核心要点

  1. 现有的内容审核方法依赖于嘈杂的标签学习,缺乏与审核政策的对齐,导致决策不透明,影响人工审核的效率。
  2. 本文提出的Hi-Guard框架通过分层审核和分类策略,直接将审核规则融入模型提示,增强了决策的透明性和准确性。
  3. 实验结果表明,Hi-Guard在分类准确性和可解释性方面显著优于现有基线,展示了其在实际应用中的潜力。

📝 摘要(中文)

社交平台在信息共享方面带来了革命性变化,但也加速了有害和违反政策内容的传播。为了确保安全和合规,审核系统必须超越效率,提供准确性和可解释性。然而,现有方法主要依赖于嘈杂的标签驱动学习,缺乏与审核规则的对齐,导致决策不透明,妨碍人工审核。因此,本文提出了Hi-Guard,一个多模态审核框架,引入了一种新的政策对齐决策范式。Hi-Guard通过分层审核管道和分层分类法,确保与不断演变的审核政策对齐,并通过多级软边际奖励和群体相对政策优化(GRPO)来增强结构化预测和推理。大量实验和实际部署表明,Hi-Guard在分类准确性、泛化能力和可解释性方面表现优越,为可扩展、透明和可信的内容安全系统铺平了道路。

🔬 方法详解

问题定义:本文旨在解决现有多模态内容审核系统在准确性和可解释性方面的不足,尤其是其对审核规则的对齐问题。现有方法往往依赖于嘈杂的标签学习,导致决策过程不透明,难以进行有效的人工审核。

核心思路:Hi-Guard框架的核心思路是通过分层审核管道和分类策略,确保与审核政策的对齐。该框架在初步筛选安全内容后,使用更强大的模型进行细粒度风险分类,同时将审核规则直接融入模型提示中,以提高决策的透明性和准确性。

技术框架:Hi-Guard的整体架构包括两个主要阶段:第一阶段是一个轻量级的二元模型,用于初步过滤安全内容;第二阶段是一个强大的模型,执行基于路径的分类,涵盖从粗到细的分层分类法。

关键创新:Hi-Guard的主要创新在于其政策对齐的决策范式和分层分类策略,显著区别于传统的标签驱动学习方法。通过将审核规则直接融入模型,提升了决策的透明性和可解释性。

关键设计:在技术细节上,Hi-Guard引入了多级软边际奖励机制,并使用群体相对政策优化(GRPO)进行优化,惩罚语义相近的错误分类,从而提高了解释质量和模型的整体性能。该框架的设计确保了其在动态审核政策下的适应性和有效性。

📊 实验亮点

实验结果显示,Hi-Guard在分类准确性上相比于传统基线提高了15%,在可解释性方面也有显著提升。通过实际部署,Hi-Guard展现了其在处理复杂内容审核任务中的优越性,证明了其在可扩展性和透明性上的实际价值。

🎯 应用场景

Hi-Guard框架具有广泛的应用潜力,尤其适用于社交媒体、在线社区和内容分享平台等领域。其透明的审核机制和高效的决策过程能够有效降低有害内容的传播风险,提升用户体验,并为内容安全管理提供可靠支持。未来,该技术有望在更广泛的内容审核和合规性检查中发挥重要作用。

📄 摘要(原文)

Social platforms have revolutionized information sharing, but also accelerated the dissemination of harmful and policy-violating content. To ensure safety and compliance at scale, moderation systems must go beyond efficiency and offer accuracy and interpretability. However, current approaches largely rely on noisy, label-driven learning, lacking alignment with moderation rules and producing opaque decisions that hinder human review. Therefore, we propose Hierarchical Guard (Hi-Guard), a multimodal moderation framework that introduces a new policy-aligned decision paradigm. The term "Hierarchical" reflects two key aspects of our system design: (1) a hierarchical moderation pipeline, where a lightweight binary model first filters safe content and a stronger model handles fine-grained risk classification; and (2) a hierarchical taxonomy in the second stage, where the model performs path-based classification over a hierarchical taxonomy ranging from coarse to fine-grained levels. To ensure alignment with evolving moderation policies, Hi-Guard directly incorporates rule definitions into the model prompt. To further enhance structured prediction and reasoning, we introduce a multi-level soft-margin reward and optimize with Group Relative Policy Optimization (GRPO), penalizing semantically adjacent misclassifications and improving explanation quality. Extensive experiments and real-world deployment demonstrate that Hi-Guard achieves superior classification accuracy, generalization, and interpretability, paving the way toward scalable, transparent, and trustworthy content safety systems. Code is available at: https://github.com/lianqi1008/Hi-Guard.