FTibSuite: A Comprehensive Resource Suite for Tibetan Vision-Language Modeling

作者: Guixian Xu, Yide Liang, Zeli Su, Xuexian Song, Ziyin Zhang, Yushuang Dong, Ting Zhang, Xu Han

分类: cs.CV, cs.DB

发布日期: 2026-05-26

💡 一句话要点

FTibSuite：为藏语视觉-语言建模提供全面的资源套件

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 藏语 视觉-语言模型 多模态学习 低资源语言 数据集 基准测试 指令微调

📋 核心要点

藏语视觉-语言模型发展滞后，缺乏可复现的训练和评估资源是主要瓶颈。
FTibSuite通过构建高质量的藏语多模态数据集、基准和基线模型，为藏语视觉-语言研究提供支持。
实验表明，FTibVLM在多个任务上显著提升性能，同时保持了中文能力，为后续研究奠定基础。

📝 摘要（中文）

视觉-语言模型发展迅速，但由于缺乏可复现的训练和评估基础设施，藏语仍然是一种严重缺乏资源的低资源语言。为了填补这一空白，我们推出了FTibSuite，这是一个全面的藏语视觉-语言研究资源套件，包括FTibData（人工验证的多模态训练语料库，涵盖持续预训练、图像-文本对齐和指令微调数据）、FTibBench（五个主流多模态基准的藏语改编版本，具有分层质量控制工作流程以减少翻译噪声）和FTibVLM，这是一个基于Qwen3-VL-8B-Instruct通过三阶段适应流程构建的可复现基线。在FTibBench上的实验表明，FTibVLM在所有任务中都提供了持续的性能提升，例如将MMBench的准确率从42.97提高到67.78，将POPE-random的准确率从47.53提高到80.56，同时保留了骨干网络的原始中文能力，且退化最小，为藏语多模态研究提供了第一个标准化基础。

🔬 方法详解

问题定义：现有视觉-语言模型在藏语上的应用受限于缺乏高质量的藏语多模态数据、标准化的评估基准以及可复现的基线模型。这阻碍了藏语视觉-语言模型的研究进展，使得该领域的研究人员难以进行有效的模型训练、评估和比较。

核心思路：FTibSuite的核心思路是构建一个全面的资源套件，包括高质量的训练数据（FTibData）、标准化的评估基准（FTibBench）以及可复现的基线模型（FTibVLM）。通过提供这些资源，降低藏语视觉-语言研究的门槛，促进该领域的发展。

技术框架：FTibSuite包含三个主要组成部分：FTibData、FTibBench和FTibVLM。FTibData提供多模态训练数据，涵盖持续预训练、图像-文本对齐和指令微调。FTibBench提供五个主流多模态基准的藏语改编版本，用于模型评估。FTibVLM是一个基于Qwen3-VL-8B-Instruct构建的基线模型，通过三阶段适应流程进行训练。

关键创新：FTibSuite的关键创新在于其全面性和高质量。它不仅提供了训练数据和评估基准，还提供了一个可复现的基线模型，使得研究人员可以更容易地开展藏语视觉-语言研究。此外，FTibBench采用了分层质量控制工作流程，以减少翻译噪声，保证了评估结果的可靠性。

关键设计：FTibVLM的训练采用了三阶段适应流程：第一阶段是持续预训练，使用FTibData进行模型预训练；第二阶段是图像-文本对齐，使用FTibData中的图像-文本对齐数据进行模型微调；第三阶段是指令微调，使用FTibData中的指令微调数据进行模型微调。FTibBench的构建采用了分层质量控制工作流程，包括机器翻译、人工校对和专家审核等环节。

🖼️ 关键图片

📊 实验亮点

FTibVLM在FTibBench上取得了显著的性能提升。例如，MMBench的准确率从42.97%提高到67.78%，POPE-random的准确率从47.53%提高到80.56%。同时，FTibVLM在提升藏语性能的同时，保留了Qwen3-VL-8B-Instruct的原始中文能力，且性能退化最小。

🎯 应用场景

FTibSuite为藏语地区的教育、文化保护和信息传播提供了新的可能性。例如，可以用于开发藏语智能教育应用、藏语文化遗产数字化保护系统以及藏语多模态信息检索工具。该研究有助于促进藏语信息技术的发展，并为其他低资源语言的视觉-语言建模提供借鉴。

📄 摘要（原文）

Vision-language models have progressed rapidly, but Tibetan remains a severely underserved low-resource language due to the lack of reproducible training and evaluation infrastructure. To fill this gap, we introduce FTibSuite, a comprehensive resource suite for Tibetan vision-language research, consisting of FTibData (human-verified multimodal training corpora spanning continual pretraining, image-text alignment, and instruction tuning data), FTibBench (Tibetan adaptations of five mainstream multimodal benchmarks with a hierarchical quality-control workflow to reduce translation noise), and FTibVLM, a reproducible baseline built on Qwen3-VL-8B-Instruct via a three-stage adaptation pipeline. Experiments on FTibBench show FTibVLM delivers consistent performance gains across all tasks, such as improving MMBench accuracy from 42.97 to 67.78 and POPE-random accuracy from 47.53 to 80.56, while retaining the backbone's original Chinese capabilities with minimal degradation, providing the first standardized foundation for Tibetan multimodal research.

FTibSuite: A Comprehensive Resource Suite for Tibetan Vision-Language Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理