VARCO-VISION-2.0 Technical Report

📄 arXiv: 2509.10105v2 📥 PDF

作者: Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim

分类: cs.CV, cs.CL

发布日期: 2025-09-12 (更新: 2025-09-16)

备注: 19 pages, 1 figure, 14 tables. Technical report for VARCO-VISION-2.0, a Korean-English bilingual VLM in 14B and 1.7B variants. Key features: multi-image understanding, OCR with text localization, improved Korean capabilities


💡 一句话要点

VARCO-VISION-2.0:开源双语视觉语言模型,提升多模态理解与OCR能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态学习 OCR 双语模型 文档理解 空间理解 课程学习 模型压缩

📋 核心要点

  1. 现有视觉语言模型在处理复杂文档和图表等多图像输入时,多模态对齐和空间理解能力不足。
  2. VARCO-VISION-2.0通过四阶段课程学习和内存优化技术,提升多模态对齐能力,并支持布局感知的OCR。
  3. 14B模型在OpenCompass VLM排行榜上取得第八名,同时发布了1.7B轻量级版本,便于设备端部署。

📝 摘要(中文)

本文介绍了VARCO-VISION-2.0,一个开源的双语(韩语和英语)视觉语言模型(VLM),它在之前的模型VARCO-VISION-14B的基础上进行了改进。该模型支持多图像理解,适用于文档、图表和表格等复杂输入,并通过预测文本内容及其空间位置来实现布局感知的OCR。通过一个四阶段的课程训练,并结合内存高效的技术,该模型增强了多模态对齐,同时保留了核心语言能力,并通过偏好优化提高了安全性。广泛的基准评估表明,该模型在空间定位方面表现出色,并且在两种语言上都取得了具有竞争力的结果,其中14B模型在OpenCompass VLM排行榜上同等规模的模型中排名第八。除了14B规模的模型外,我们还发布了一个针对设备端部署优化的1.7B版本。我们相信这些模型将推动双语VLM的发展及其在实际应用中的潜力。VARCO-VISION-2.0的两个变体可在Hugging Face上找到:一个完整规模的14B模型和一个轻量级的1.7B模型。

🔬 方法详解

问题定义:现有视觉语言模型在处理复杂文档(如包含图表、表格)时,难以有效理解多图像之间的关系,并且在进行OCR时,无法充分利用布局信息,导致识别精度下降。此外,对于韩语和英语的双语支持也是一个挑战。

核心思路:VARCO-VISION-2.0的核心思路是通过多阶段的课程学习,逐步提升模型的多模态对齐能力和空间理解能力。同时,采用内存高效的技术,使得更大规模的模型训练成为可能。通过预测文本内容及其空间位置,实现布局感知的OCR。

技术框架:VARCO-VISION-2.0的训练过程包含四个阶段的课程学习,具体细节未知。模型整体架构基于视觉语言模型,能够处理多图像输入,并输出文本内容和对应的空间位置信息。模型包含14B和1.7B两个版本,分别面向高性能服务器和设备端部署。

关键创新:该模型的主要创新点在于:1) 针对韩语和英语的双语支持;2) 通过多阶段课程学习提升多模态对齐能力;3) 布局感知的OCR,能够同时预测文本内容和空间位置。

关键设计:论文中没有详细描述关键参数设置、损失函数和网络结构等技术细节。但提到使用了内存高效的技术,这对于训练大规模模型至关重要。偏好优化用于提高模型的安全性,具体实现方式未知。

🖼️ 关键图片

fig_0

📊 实验亮点

VARCO-VISION-2.0的14B模型在OpenCompass VLM排行榜上,在同等规模的模型中取得了第八名的成绩,证明了其强大的性能。同时,该模型支持韩语和英语两种语言,并且具有布局感知的OCR能力。1.7B轻量级模型的发布,使得该模型可以在设备端部署,扩展了其应用范围。

🎯 应用场景

VARCO-VISION-2.0可应用于文档理解、信息抽取、智能OCR、多语言内容分析等领域。例如,可以用于自动处理包含图表和表格的财务报表,或者从扫描的合同中提取关键信息。该模型在设备端的部署潜力巨大,可以为移动设备提供强大的视觉语言能力,例如智能翻译、图像搜索等。

📄 摘要(原文)

We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model (VLM) for Korean and English with improved capabilities compared to the previous model VARCO-VISION-14B. The model supports multi-image understanding for complex inputs such as documents, charts, and tables, and delivers layoutaware OCR by predicting both textual content and its spatial location. Trained with a four-stage curriculum with memory-efficient techniques, the model achieves enhanced multimodal alignment, while preserving core language abilities and improving safety via preference optimization. Extensive benchmark evaluations demonstrate strong spatial grounding and competitive results for both languages, with the 14B model achieving 8th place on the OpenCompass VLM leaderboard among models of comparable scale. Alongside the 14B-scale model, we release a 1.7B version optimized for on-device deployment. We believe these models advance the development of bilingual VLMs and their practical applications. Two variants of VARCO-VISION-2.0 are available at Hugging Face: a full-scale 14B model and a lightweight 1.7B model.