Xuanwu: Evolving General Multimodal Models into an Industrial-Grade Foundation for Content Ecosystems
作者: Zhiqian Zhang, Xu Zhao, Xiaoqing Xu, Guangdong Liang, Weijia Wang, Xiaolei Lv, Bo Li, Jun Gao
分类: cs.AI, cs.CL, cs.CV
发布日期: 2026-03-31
备注: 41 pages, 10 figures
💡 一句话要点
Xuanwu VL-2B:面向内容生态的工业级通用多模态基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 内容审核 对抗性OCR 视觉感知 长尾噪声
📋 核心要点
- 现有通用多模态模型在内容审核等实际应用中,面临泛化性差、易遗忘等问题,原因是视觉感知不足和长尾噪声建模欠缺。
- Xuanwu VL-2B通过紧凑的模型架构和三阶段训练流程,在有限参数下平衡了业务需求、视觉感知、通用能力和部署成本。
- 实验表明,Xuanwu VL-2B在多个业务审核任务和对抗性OCR场景中,性能优于InternVL 3.5 2B和Gemini-2.5-Pro。
📝 摘要(中文)
近年来,多模态大模型在通用基准测试中不断改进。然而,在实际的内容审核和对抗环境中,主流模型由于细粒度视觉感知有限以及对长尾噪声建模不足,仍然面临泛化能力下降和灾难性遗忘的问题。本文提出了Xuanwu VL-2B,作为一个案例研究,展示了如何将通用多模态模型发展成为内容生态的工业级基础模型。该模型采用紧凑的InternViT-300M + MLP + Qwen3 1.7B架构,在约20亿参数的预算内平衡了细粒度的视觉感知、语言语义对齐和部署成本。为了平衡业务专业化与通用能力保留,我们开发了一种数据迭代和管理机制,并通过渐进的三阶段流程训练模型:预训练、中期训练和后训练。消融研究和离线业务评估表明,Xuanwu VL-2B在七个OpenCompass多模态指标上取得了67.90的平均分(InternVL 3.5 2B为64.27),在七个独立的业务审核任务中平均召回率为94.38%,在具有挑战性的对抗性OCR场景中,对违反策略文本的加权总体召回率为82.82%,优于Gemini-2.5-Pro(76.72%)。这些结果表明,在有限的参数预算下,Xuanwu VL-2B在业务对齐、视觉感知、通用能力保留和部署成本之间实现了实际的平衡。
🔬 方法详解
问题定义:论文旨在解决通用多模态模型在实际内容生态应用中,由于视觉感知能力不足和对长尾噪声建模的欠缺,导致的泛化能力下降和灾难性遗忘问题。现有方法难以在有限的计算资源下,同时兼顾业务对齐、视觉感知、通用能力保留和部署成本。
核心思路:论文的核心思路是设计一个参数量适中的模型,并采用渐进式的三阶段训练策略,以平衡业务专业化与通用能力保留。通过精心设计的数据迭代和管理机制,提升模型在特定业务场景下的性能,同时避免过度拟合,保持模型的通用性。
技术框架:Xuanwu VL-2B的整体架构包括三个主要模块:InternViT-300M作为视觉编码器,MLP作为视觉特征和语言特征的对齐模块,以及Qwen3 1.7B作为语言模型。训练流程分为三个阶段:预训练阶段使用通用多模态数据进行训练,提升模型的通用能力;中期训练阶段使用业务相关数据进行训练,使模型适应特定业务场景;后训练阶段使用对抗性数据进行训练,提升模型的鲁棒性。
关键创新:论文的关键创新在于提出了一种面向工业级内容生态的多模态模型训练框架,该框架能够在有限的参数预算下,实现业务对齐、视觉感知、通用能力保留和部署成本之间的平衡。此外,论文还提出了一种数据迭代和管理机制,能够有效地提升模型在特定业务场景下的性能。
关键设计:模型采用了InternViT-300M作为视觉编码器,以实现细粒度的视觉感知。使用MLP作为视觉特征和语言特征的对齐模块,简化了模型结构,降低了计算成本。训练过程中,采用了多种数据增强技术,以提升模型的鲁棒性。损失函数方面,采用了交叉熵损失和对比损失,以提升模型的分类和检索性能。
🖼️ 关键图片
📊 实验亮点
Xuanwu VL-2B在七个OpenCompass多模态指标上取得了67.90的平均分,优于InternVL 3.5 2B的64.27分。在七个独立的业务审核任务中,平均召回率为94.38%。在具有挑战性的对抗性OCR场景中,对违反策略文本的加权总体召回率为82.82%,优于Gemini-2.5-Pro的76.72%。这些结果表明,Xuanwu VL-2B在有限的参数预算下,实现了优异的性能。
🎯 应用场景
Xuanwu VL-2B可广泛应用于内容审核、广告检测、恶意信息识别等领域。该模型能够有效识别图像、文本等多模态内容中的违规信息,提升内容平台的安全性和用户体验。未来,该模型有望应用于智能客服、虚拟助手等场景,实现更智能、更高效的多模态交互。
📄 摘要(原文)
In recent years, multimodal large models have continued to improve on general benchmarks. However, in real-world content moderation and adversarial settings, mainstream models still suffer from degraded generalization and catastrophic forgetting because of limited fine-grained visual perception and insufficient modeling of long-tail noise. In this paper, we present Xuanwu VL-2B as a case study of how general multimodal models can be developed into an industrial-grade foundation model for content ecosystems. The model adopts a compact InternViT-300M + MLP + Qwen3 1.7B architecture, balancing fine-grained visual perception, language-semantic alignment, and deployment cost within an approximately 2B-parameter budget. To balance business specialization with the retention of general capabilities, we developed a data iteration and curation mechanism and trained the model through a progressive three-stage pipeline: pre-training, mid-training, and post-training. Ablation studies and offline business evaluations show that Xuanwu VL-2B achieves an average score of 67.90 across seven OpenCompass multimodal metrics (vs. 64.27 for InternVL 3.5 2B), an average recall of 94.38% over seven independent business moderation tasks, and a weighted overall recall of 82.82% on policy-violating text in challenging adversarial OCR scenarios, outperforming Gemini-2.5-Pro (76.72%). These results show that, under a limited parameter budget, Xuanwu VL-2B achieves a practical balance among business alignment, visual perception, general capability retention, and deployment cost.