FTibSuite: A Comprehensive Resource Suite for Tibetan Vision-Language Modeling

📄 arXiv: 2605.26601v1 📥 PDF

作者: Guixian Xu, Yide Liang, Zeli Su, Xuexian Song, Ziyin Zhang, Yushuang Dong, Ting Zhang, Xu Han

分类: cs.CV, cs.DB

发布日期: 2026-05-26


💡 一句话要点

FTibSuite:为藏语视觉-语言建模提供全面的资源套件

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 藏语 视觉-语言模型 多模态学习 低资源语言 数据集 基准测试 指令微调

📋 核心要点

  1. 藏语视觉-语言模型发展滞后,缺乏可复现的训练和评估资源是主要瓶颈。
  2. FTibSuite通过构建高质量的藏语多模态数据集、基准和基线模型,为藏语视觉-语言研究提供支持。
  3. 实验表明,FTibVLM在多个任务上显著提升性能,同时保持了中文能力,为后续研究奠定基础。

📝 摘要(中文)

视觉-语言模型发展迅速,但由于缺乏可复现的训练和评估基础设施,藏语仍然是一种严重缺乏资源的低资源语言。为了填补这一空白,我们推出了FTibSuite,这是一个全面的藏语视觉-语言研究资源套件,包括FTibData(人工验证的多模态训练语料库,涵盖持续预训练、图像-文本对齐和指令微调数据)、FTibBench(五个主流多模态基准的藏语改编版本,具有分层质量控制工作流程以减少翻译噪声)和FTibVLM,这是一个基于Qwen3-VL-8B-Instruct通过三阶段适应流程构建的可复现基线。在FTibBench上的实验表明,FTibVLM在所有任务中都提供了持续的性能提升,例如将MMBench的准确率从42.97提高到67.78,将POPE-random的准确率从47.53提高到80.56,同时保留了骨干网络的原始中文能力,且退化最小,为藏语多模态研究提供了第一个标准化基础。

🔬 方法详解

问题定义:现有视觉-语言模型在藏语上的应用受限于缺乏高质量的藏语多模态数据、标准化的评估基准以及可复现的基线模型。这阻碍了藏语视觉-语言模型的研究进展,使得该领域的研究人员难以进行有效的模型训练、评估和比较。

核心思路:FTibSuite的核心思路是构建一个全面的资源套件,包括高质量的训练数据(FTibData)、标准化的评估基准(FTibBench)以及可复现的基线模型(FTibVLM)。通过提供这些资源,降低藏语视觉-语言研究的门槛,促进该领域的发展。

技术框架:FTibSuite包含三个主要组成部分:FTibData、FTibBench和FTibVLM。FTibData提供多模态训练数据,涵盖持续预训练、图像-文本对齐和指令微调。FTibBench提供五个主流多模态基准的藏语改编版本,用于模型评估。FTibVLM是一个基于Qwen3-VL-8B-Instruct构建的基线模型,通过三阶段适应流程进行训练。

关键创新:FTibSuite的关键创新在于其全面性和高质量。它不仅提供了训练数据和评估基准,还提供了一个可复现的基线模型,使得研究人员可以更容易地开展藏语视觉-语言研究。此外,FTibBench采用了分层质量控制工作流程,以减少翻译噪声,保证了评估结果的可靠性。

关键设计:FTibVLM的训练采用了三阶段适应流程:第一阶段是持续预训练,使用FTibData进行模型预训练;第二阶段是图像-文本对齐,使用FTibData中的图像-文本对齐数据进行模型微调;第三阶段是指令微调,使用FTibData中的指令微调数据进行模型微调。FTibBench的构建采用了分层质量控制工作流程,包括机器翻译、人工校对和专家审核等环节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FTibVLM在FTibBench上取得了显著的性能提升。例如,MMBench的准确率从42.97%提高到67.78%,POPE-random的准确率从47.53%提高到80.56%。同时,FTibVLM在提升藏语性能的同时,保留了Qwen3-VL-8B-Instruct的原始中文能力,且性能退化最小。

🎯 应用场景

FTibSuite为藏语地区的教育、文化保护和信息传播提供了新的可能性。例如,可以用于开发藏语智能教育应用、藏语文化遗产数字化保护系统以及藏语多模态信息检索工具。该研究有助于促进藏语信息技术的发展,并为其他低资源语言的视觉-语言建模提供借鉴。

📄 摘要(原文)

Vision-language models have progressed rapidly, but Tibetan remains a severely underserved low-resource language due to the lack of reproducible training and evaluation infrastructure. To fill this gap, we introduce FTibSuite, a comprehensive resource suite for Tibetan vision-language research, consisting of FTibData (human-verified multimodal training corpora spanning continual pretraining, image-text alignment, and instruction tuning data), FTibBench (Tibetan adaptations of five mainstream multimodal benchmarks with a hierarchical quality-control workflow to reduce translation noise), and FTibVLM, a reproducible baseline built on Qwen3-VL-8B-Instruct via a three-stage adaptation pipeline. Experiments on FTibBench show FTibVLM delivers consistent performance gains across all tasks, such as improving MMBench accuracy from 42.97 to 67.78 and POPE-random accuracy from 47.53 to 80.56, while retaining the backbone's original Chinese capabilities with minimal degradation, providing the first standardized foundation for Tibetan multimodal research.