VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform

📄 arXiv: 2504.14904v1 📥 PDF

作者: Xingyu Lu, Tianke Zhang, Chang Meng, Xiaobei Wang, Jinpeng Wang, YiFan Zhang, Shisong Tang, Changyi Liu, Haojie Ding, Kaiyu Jiang, Kaiyu Tang, Bin Wen, Hai-Tao Zheng, Fan Yang, Tingting Gao, Di Zhang, Kun Gai

分类: cs.SI, cs.AI, cs.CL, cs.MM

发布日期: 2025-04-21

备注: 20 pages, 6 figures


💡 一句话要点

提出KuaiMod框架,利用VLM和CoT解决短视频平台内容审核难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 短视频内容审核 视觉语言模型 思维链 用户反馈 动态策略 内容理解 模型优化

📋 核心要点

  1. 现有短视频内容审核方法存在人工审核成本高、自动化方法理解不足、法规更新滞后等问题。
  2. KuaiMod框架利用VLM和CoT,基于用户反馈建模视频毒性,实现快速更新和高准确性的动态审核策略。
  3. 实验表明,KuaiMod在内容审核基准上表现最佳,降低用户报告率20%,并提升了快手DAU和AUT。

📝 摘要(中文)

短视频平台(SVP)面临着审核对用户心理健康(尤其是未成年人)有害内容的严峻挑战。此类内容在SVP上的传播可能导致灾难性的社会后果。尽管在审核此类内容方面已付出巨大努力,但现有方法存在严重局限性:(1)人工审核容易产生人为偏见并导致高昂的运营成本。(2)自动化方法虽然高效,但缺乏细致的内容理解,导致准确性较低。(3)由于更新周期长,行业审核法规难以适应快速发展的趋势。本文标注了首个包含真实用户/审核员反馈的SVP内容审核基准,以填补该领域基准的空白。然后,我们在基准上评估各种方法,以验证上述局限性的存在。我们进一步提出了名为KuaiMod的通用法律内容审核框架来应对这些挑战。KuaiMod由三个组件组成:训练数据构建、离线适配和在线部署与优化。KuaiMod利用大型视觉语言模型(VLM)和思维链(CoT)推理,基于稀疏的用户反馈充分建模视频毒性,并促进具有快速更新速度和高准确性的动态审核策略。离线实验和大规模在线A/B测试证明了KuaiMod的优越性:KuaiMod在我们的基准上实现了最佳的审核性能。KuaiMod的部署将用户报告率降低了20%,并且其在视频推荐中的应用提高了快手多个场景中的每日活跃用户(DAU)和APP使用时间(AUT)。我们已在https://kuaimod.github.io上开源了我们的基准。

🔬 方法详解

问题定义:论文旨在解决短视频平台内容审核中,现有方法(人工审核、自动化方法、行业法规)存在的不足。人工审核成本高且易受主观偏见影响,自动化方法缺乏对内容的细致理解,行业法规更新速度慢,难以适应快速变化的内容趋势。

核心思路:论文的核心思路是利用大型视觉语言模型(VLM)和思维链(CoT)推理,将内容审核转化为一个基于用户反馈的动态学习和推理过程。通过VLM理解视频内容,CoT模拟人类推理过程,从而更准确地判断视频的毒性。

技术框架:KuaiMod框架包含三个主要组成部分:训练数据构建、离线适配和在线部署与优化。首先,构建包含用户反馈的审核数据集。然后,利用该数据集对VLM进行离线训练和适配,使其能够理解视频内容和用户反馈之间的关系。最后,将训练好的模型部署到在线环境中,并根据用户反馈进行持续优化。

关键创新:KuaiMod的关键创新在于将VLM和CoT应用于短视频内容审核,并结合用户反馈进行动态学习。与传统的基于规则或简单模型的审核方法相比,KuaiMod能够更准确地理解视频内容的语义,并根据用户反馈进行自适应调整,从而提高审核的准确性和效率。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但可以推断,VLM的选择和训练、CoT的prompt设计、以及用户反馈的有效利用是关键的设计要素。未来的研究可以关注如何优化这些要素,以进一步提高KuaiMod的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KuaiMod在自建的短视频内容审核基准上取得了最佳性能,显著优于现有方法。在线A/B测试表明,KuaiMod的部署降低了用户报告率20%,并提升了快手多个场景中的每日活跃用户(DAU)和APP使用时间(AUT),证明了其在实际应用中的有效性。

🎯 应用场景

该研究成果可应用于各类短视频平台的内容审核,有效减少有害信息的传播,保护用户(尤其是未成年人)的心理健康。此外,该方法也可扩展到其他类型的内容审核场景,如社交媒体、在线论坛等,具有广泛的应用前景和重要的社会价值。

📄 摘要(原文)

Exponentially growing short video platforms (SVPs) face significant challenges in moderating content detrimental to users' mental health, particularly for minors. The dissemination of such content on SVPs can lead to catastrophic societal consequences. Although substantial efforts have been dedicated to moderating such content, existing methods suffer from critical limitations: (1) Manual review is prone to human bias and incurs high operational costs. (2) Automated methods, though efficient, lack nuanced content understanding, resulting in lower accuracy. (3) Industrial moderation regulations struggle to adapt to rapidly evolving trends due to long update cycles. In this paper, we annotate the first SVP content moderation benchmark with authentic user/reviewer feedback to fill the absence of benchmark in this field. Then we evaluate various methods on the benchmark to verify the existence of the aforementioned limitations. We further propose our common-law content moderation framework named KuaiMod to address these challenges. KuaiMod consists of three components: training data construction, offline adaptation, and online deployment & refinement. Leveraging large vision language model (VLM) and Chain-of-Thought (CoT) reasoning, KuaiMod adequately models video toxicity based on sparse user feedback and fosters dynamic moderation policy with rapid update speed and high accuracy. Offline experiments and large-scale online A/B test demonstrates the superiority of KuaiMod: KuaiMod achieves the best moderation performance on our benchmark. The deployment of KuaiMod reduces the user reporting rate by 20% and its application in video recommendation increases both Daily Active User (DAU) and APP Usage Time (AUT) on several Kuaishou scenarios. We have open-sourced our benchmark at https://kuaimod.github.io.