QwenSafe: Multimodal Content Rating Description Identification via Preference-Aligned VLMs

📄 arXiv: 2605.20584v1 📥 PDF

作者: Dishanika Denipitiyage, Aruna Seneviratne, Suranga Seneviratne

分类: cs.CV

发布日期: 2026-05-20


💡 一句话要点

QwenSafe:利用偏好对齐的视觉语言模型进行多模态内容分级描述识别

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 内容分级 视觉语言模型 多模态学习 偏好对齐 直接偏好优化

📋 核心要点

  1. 现有移动应用市场的内容分级描述符依赖人工标注,成本高昂且容易出错,难以保证准确性和一致性。
  2. QwenSafe通过构建metadata2CRD数据集,并结合监督微调和直接偏好优化,使视觉语言模型能够理解和识别内容分级描述符。
  3. 实验结果表明,QwenSafe在内容分级描述符识别任务上显著优于现有视觉语言模型,正类召回率提升高达111.8%。

📝 摘要(中文)

移动应用市场要求开发者披露标准化的内容分级描述符(CRD),以便告知用户潜在的敏感或限制内容。由于应用内容的多模态特性(包括文本描述和视觉界面),确保这些披露的准确性和一致性仍然具有挑战性。本文提出了QwenSafe,一个视觉语言模型(VLM),旨在通过联合推理应用元数据和屏幕截图,自动识别Apple定义的CRD的存在。为了实现该任务的可扩展训练,我们引入了metadata2CRD,一个数据构建流程,通过组合应用描述、屏幕截图和正式描述符定义来合成描述符对齐的问答对。我们使用监督微调,然后使用直接偏好优化(DPO)来调整Qwen3-VL-8B,以使模型预测与跨视觉和文本模态的描述符特定证据和解释对齐。我们在12个Apple定义的内容分级描述符上评估QwenSafe,并将其与最先进的视觉语言模型(包括Qwen3-VL,LLaVA-1.6和Gemini-2.5-Flash)进行比较。QwenSafe在二元CRD分类中始终优于所有基线,在正类召回率方面分别提高了111.8%,36.1%和2.1%。我们的结果表明,描述符感知的多模态对齐显着改善了自动内容分类,并突出了视觉语言模型在移动应用市场中支持可扩展且一致的内容分级的潜力。

🔬 方法详解

问题定义:移动应用市场需要准确的内容分级描述符(CRD)来告知用户潜在的敏感内容。然而,人工标注CRD成本高昂且容易出错。现有方法难以有效利用应用的多模态信息(文本描述和屏幕截图)进行自动CRD识别,导致准确性和一致性不足。

核心思路:论文的核心思路是训练一个能够理解和推理应用多模态信息的视觉语言模型(VLM),使其能够准确识别CRD。通过构建描述符对齐的问答对数据集,并使用偏好优化方法,使模型能够学习到CRD与应用内容之间的关联,从而提高识别准确率。

技术框架:QwenSafe的整体框架包含以下几个主要阶段:1) 数据构建:使用metadata2CRD流程,从应用描述、屏幕截图和CRD定义中合成描述符对齐的问答对。2) 监督微调:使用合成数据对Qwen3-VL-8B进行监督微调,使其初步具备CRD识别能力。3) 直接偏好优化(DPO):使用DPO方法,根据人类偏好数据进一步调整模型,使其预测结果与描述符特定证据和解释对齐。

关键创新:论文的关键创新在于:1) metadata2CRD数据构建流程:该流程能够高效地合成大规模的描述符对齐的问答对,解决了训练数据不足的问题。2) 基于DPO的偏好对齐:通过DPO方法,模型能够学习到人类对于CRD的偏好,从而提高识别准确率和可解释性。

关键设计:metadata2CRD流程的关键设计在于如何将应用描述、屏幕截图和CRD定义有效地结合起来,生成高质量的问答对。DPO方法的关键设计在于如何构建合适的偏好数据,以及如何选择合适的奖励函数。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QwenSafe在12个Apple定义的内容分级描述符上进行了评估,并与Qwen3-VL、LLaVA-1.6和Gemini-2.5-Flash等最先进的视觉语言模型进行了比较。实验结果表明,QwenSafe在二元CRD分类中始终优于所有基线,在正类召回率方面分别提高了111.8%,36.1%和2.1%,证明了其在内容分级任务上的有效性。

🎯 应用场景

QwenSafe可应用于移动应用市场,自动识别和验证应用的内容分级描述符,提高内容分级的准确性和一致性,降低人工审核成本。该技术还有潜力扩展到其他内容平台,例如社交媒体和视频网站,用于自动识别和过滤不适宜内容,营造更健康的网络环境。

📄 摘要(原文)

Mobile app marketplaces require developers to disclose standardized content rating descriptors (CRDs) to inform users about potentially sensitive or restricted content. Ensuring the accuracy and consistency of these disclosures remains challenging due to the multimodal nature of app content, which spans textual descriptions and visual interfaces. In this paper, we present QwenSafe, a Vision-Language Model (VLM) designed to automatically identify the presence of Apple-defined CRDs by jointly reasoning over app metadata and screenshots. To enable scalable training for this task, we introduce metadata2CRD, a data-construction pipeline that synthesizes descriptor-aligned question-answer pairs by combining app descriptions, screenshots, and formal descriptor definitions. We adapt Qwen3-VL-8B using supervised fine-tuning followed by Direct Preference Optimization (DPO) to align model predictions with descriptor-specific evidence and explanations across visual and textual modalities. We evaluate QwenSafe on 12 Apple-defined content rating descriptors and compare it against state-of-the-art vision-language models, including Qwen3-VL, LLaVA-1.6, and Gemini-2.5-Flash. QwenSafe consistently outperforms all baselines in binary CRD classification, achieving improvements in positive-class recall of 111.8%, 36.1%, and 2.1%, respectively. Our results demonstrate that descriptor-aware multimodal alignment substantially improves automated content classification and highlights the potential of vision-language models to support scalable and consistent content rating in mobile app marketplaces.