RuleSafe-VL: Evaluating Rule-Conditioned Decision Reasoning in Vision-Language Content Moderation

📄 arXiv: 2605.07760v1 📥 PDF

作者: Zhifeng Lu, Dianyuan Wang, Yuhu Shang, Zhenbo Xu

分类: cs.AI

发布日期: 2026-05-08

备注: Preprint


💡 一句话要点

提出RuleSafe-VL基准,通过规则条件化决策推理评估多模态内容审核能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态内容审核 规则推理 基准测试 视觉语言模型 可解释AI 逻辑诊断

📋 核心要点

  1. 现有基准将内容审核简化为标签分类,无法评估模型是否真正理解并应用了复杂的平台政策规则。
  2. 提出RuleSafe-VL基准,通过形式化原子规则与规则关系,构建了包含2,166个图文案例的诊断性评估框架。
  3. 实验揭示了当前主流VLM在规则交互恢复与决策状态预测上的严重不足,最高性能仅达到64.8 Macro-F1。

📝 摘要(中文)

平台内容审核依赖于明确的政策规则与上下文条件,以决定内容是否合规。然而,现有的多模态安全基准往往将审核简化为预定义标签的匹配,忽略了底层的规则结构,导致模型可能仅凭表面特征而非逻辑推理得出结论。为解决这一问题,本文提出了RuleSafe-VL,这是一个用于视觉-语言内容审核中规则条件化决策推理的基准。该基准基于公开的平台审核政策,形式化了93条原子规则和92种规则关系,涵盖了三个高风险政策领域的2,166个上下文敏感的图文案例。RuleSafe-VL通过四个诊断任务将审核过程分解为决策链,包括识别激活规则、恢复规则交互、判断决策充分性及补充缺失上下文后的结果判定。对10个前沿多模态大模型(VLM)的实验表明,规则关系恢复是当前模型的主要瓶颈,且决策状态预测的可靠性依然较低,该基准推动了审核评估从标签匹配向诊断性推理的范式转变。

🔬 方法详解

问题定义:现有内容审核模型多采用端到端分类范式,缺乏对政策规则逻辑的显式推理能力。这导致模型在面对复杂、边缘案例时,往往依赖数据集中的浅层相关性(Spurious Cues)而非合规逻辑,难以满足工业界对审核可解释性和准确性的严苛要求。

核心思路:论文提出将内容审核过程建模为“规则条件化决策链”。通过将抽象的政策文本转化为结构化的原子规则与逻辑关系,将审核任务拆解为可验证的诊断步骤,从而量化模型在规则应用、逻辑推理及证据评估方面的真实能力。

技术框架:RuleSafe-VL包含四个核心诊断任务:1. 激活规则识别(识别哪些规则被触发);2. 规则关系恢复(分析规则间的逻辑交互,如互斥或叠加);3. 决策充分性判断(评估现有证据是否足以支撑结论);4. 结果推理(在补全缺失上下文后进行最终判定)。

关键创新:该研究首次将形式化逻辑引入多模态安全评估,构建了包含93条原子规则和92种规则关系的知识图谱,实现了从“结果导向”到“过程导向”的评估范式转换,能够精准定位模型在推理链条中的失效环节。

关键设计:基准构建基于真实平台政策,通过人工标注与逻辑校验确保规则的严密性。在评估指标上,采用Macro-F1衡量模型在不同规则类别下的均衡表现,特别关注规则关系恢复这一高难度任务,以揭示模型在处理复杂逻辑时的鲁棒性瓶颈。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验评估了10个前沿及安全导向的VLM,结果显示规则关系恢复是当前模型的最大瓶颈,最佳模型仅达到64.8 Macro-F1,部分安全导向模型甚至低于7 Macro-F1。此外,决策状态预测任务的最高表现仅为64.5 Macro-F1,证明了现有模型在处理复杂逻辑推理任务时仍存在显著的可靠性问题。

🎯 应用场景

该研究可广泛应用于社交媒体、直播平台及在线社区的内容审核系统。通过引入规则推理评估,开发者能更精准地诊断模型在特定政策领域的短板,提升审核系统的可解释性与合规性,降低误删或漏删风险,对构建更安全、透明的数字内容生态具有重要意义。

📄 摘要(原文)

Platform content moderation applies explicit policy rules and context-dependent conditions to decide whether user content is allowed, restricted, or removed. A correct moderation outcome must therefore depend on which rules a case activates, how those rules interact, and whether the available evidence is sufficient. Current multimodal safety benchmarks largely reduce moderation to matching predefined final labels, leaving this underlying rule structure untested. As a result, a high benchmark score reveals little about whether a model applies the policy correctly or arrives at the correct label through superficial cues. To evaluate this rule-governed process, we introduce RuleSafe-VL, a benchmark for rule-conditioned decision reasoning in vision-language content moderation. Derived from publicly available platform moderation policies, RuleSafe-VL formalizes 93 atomic rules and 92 typed rule relations, yielding 2,166 context-sensitive image-text cases across three high-risk policy families. Its four diagnostic tasks decompose moderation into a rule-conditioned decision chain. They identify activated rules, recover rule interactions, judge decision sufficiency, and resolve outcomes once missing context is supplied. Experiments on 10 frontier, open-source, and safety-oriented VLMs reveal rule-relation recovery as the dominant bottleneck, where the best model reaches only 64.8 Macro-F1 and some safety-oriented models fall below 7 Macro-F1. Decision-state prediction also remains unreliable, peaking at 64.5 Macro-F1. RuleSafe-VL shifts moderation evaluation from final-label scoring toward diagnostic assessment of rule-conditioned decision reasoning.