KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety
作者: Viraj Panchal, Tanmay Talsaniya, Parag Patel, Meet Patel
分类: cs.CV, cs.CR
发布日期: 2026-03-17
备注: 12 pages, 2 figures, 6 tables
💡 一句话要点
KidsNanny:用于儿童安全的双阶段多模态内容审核流水线
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 儿童安全 内容审核 多模态学习 视觉Transformer OCR
📋 核心要点
- 现有内容审核方法在处理包含复杂文本和视觉信息的多模态内容时,效率和准确性存在挑战。
- KidsNanny采用双阶段架构,利用视觉Transformer和目标检测进行快速视觉筛选,再通过OCR和语言模型进行上下文推理。
- 实验表明,KidsNanny在准确率和速度上优于现有方法,尤其在处理包含文本的威胁时表现出更高的召回率。
📝 摘要(中文)
本文提出KidsNanny,一种用于儿童安全的双阶段多模态内容审核架构。第一阶段结合视觉Transformer(ViT)与目标检测器进行视觉筛选(耗时11.7毫秒);输出以文本形式而非原始像素传递到第二阶段,该阶段应用OCR和基于7B语言模型的文本进行上下文推理(整个流水线耗时120毫秒)。我们在UnsafeBench Sexual类别(1054张图像)下评估了两种模式:仅视觉,隔离第一阶段;以及多模态,评估完整的Stage 1+2流水线。第一阶段实现了80.27%的准确率和85.39%的F1分数,耗时11.7毫秒;仅视觉基线的准确率范围为59.01%至77.04%。完整流水线实现了81.40%的准确率和86.16%的F1分数,耗时120毫秒,而ShieldGemma-2的准确率为64.80%(耗时1136毫秒),LlavaGuard的准确率为80.36%(耗时4138毫秒)。为了评估文本感知能力,我们过滤了两个子集:文本+视觉子集(257张图像)和纯文本子集(44张图像,其中安全性主要取决于嵌入的文本)。在纯文本图像上,KidsNanny实现了100%的召回率(25/25个正例;样本量小)和75.76%的精确率;ShieldGemma-2在1136毫秒时实现了84%的召回率和60%的精确率。结果表明,专用的基于OCR的推理可能在较低的延迟下提供文本嵌入威胁的召回率-精确率优势,但较小的纯文本子集限制了泛化性。通过记录此架构和评估方法,我们旨在为更广泛的关于高效多模态内容审核以保障儿童安全的研究工作做出贡献。
🔬 方法详解
问题定义:论文旨在解决儿童安全领域中,如何高效准确地审核包含视觉和文本信息的多模态内容。现有方法,如ShieldGemma-2和LlavaGuard,在处理速度上存在明显不足,无法满足实时审核的需求。同时,对于依赖文本信息判断安全性的场景,现有方法的准确率仍有提升空间。
核心思路:论文的核心思路是将多模态内容审核分解为两个阶段:快速视觉筛选和精细上下文推理。第一阶段利用视觉模型快速过滤掉明显不安全的内容,第二阶段则针对剩余内容,提取文本信息并结合上下文进行更深入的分析。这种分阶段处理的方式旨在提高整体审核效率和准确率。
技术框架:KidsNanny包含两个主要阶段: 1. 视觉筛选阶段(Stage 1):使用视觉Transformer(ViT)和目标检测器对图像进行快速分析,识别潜在的危险元素。该阶段的输出不是原始像素,而是提取的文本信息,传递给下一阶段。 2. 上下文推理阶段(Stage 2):利用OCR技术提取图像中的文本,并使用一个7B语言模型进行上下文推理,判断内容是否对儿童构成威胁。该阶段综合考虑视觉信息和文本信息,做出最终的审核决策。
关键创新:该方法最重要的创新点在于其双阶段架构和文本信息的传递方式。通过将视觉筛选和上下文推理分离,并以文本形式传递信息,有效降低了计算复杂度,提高了审核速度。此外,针对文本信息的专门处理,提升了对文本嵌入威胁的识别能力。
关键设计: * 视觉模型选择:选择视觉Transformer(ViT)作为视觉筛选模型,因为它在图像分类和目标检测任务中表现出色。 * OCR技术应用:使用OCR技术提取图像中的文本信息,为上下文推理提供依据。 * 语言模型规模:选择7B语言模型,在推理速度和性能之间取得平衡。 * 评估指标:采用准确率、F1分数、召回率和精确率等指标,全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KidsNanny在UnsafeBench Sexual数据集上取得了显著的性能提升。完整流水线实现了81.40%的准确率和86.16%的F1分数,耗时120毫秒,优于ShieldGemma-2(64.80%准确率,1136毫秒)和LlavaGuard(80.36%准确率,4138毫秒)。在纯文本图像上,KidsNanny实现了100%的召回率和75.76%的精确率,表明其在处理文本嵌入威胁方面具有优势。
🎯 应用场景
KidsNanny可应用于各种在线平台,如社交媒体、视频分享网站和在线教育平台,用于自动审核用户生成的内容,及时发现并移除对儿童有害的信息。该研究有助于构建更安全的网络环境,保护儿童免受不良信息的侵害,具有重要的社会价值和应用前景。
📄 摘要(原文)
We present KidsNanny, a two-stage multimodal content moderation architecture for child safety. Stage 1 combines a vision transformer (ViT) with an object detector for visual screening (11.7 ms); outputs are routed as text not raw pixels to Stage 2, which applies OCR and a text based 7B language model for contextual reasoning (120 ms total pipeline). We evaluate on the UnsafeBench Sexual category (1,054 images) under two regimes: vision-only, isolating Stage 1, and multimodal, evaluating the full Stage 1+2 pipeline. Stage 1 achieves 80.27% accuracy and 85.39% F1 at 11.7 ms; vision-only baselines range from 59.01% to 77.04% accuracy. The full pipeline achieves 81.40% accuracy and 86.16% F1 at 120 ms, compared to ShieldGemma-2 (64.80% accuracy, 1,136 ms) and LlavaGuard (80.36% accuracy, 4,138 ms). To evaluate text-awareness, we filter two subsets: a text+visual subset (257 images) and a text-only subset (44 images where safety depends primarily on embedded text). On text-only images, KidsNanny achieves 100% recall (25/25 positives; small sample) and 75.76% precision; ShieldGemma-2 achieves 84% recall and 60% precision at 1,136 ms. Results suggest that dedicated OCR-based reasoning may offer recall-precision advantages on text-embedded threats at lower latency, though the small text-only subset limits generalizability. By documenting this architecture and evaluation methodology, we aim to contribute to the broader research effort on efficient multimodal content moderation for child safety.