COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation

📄 arXiv: 2509.09014v1 📥 PDF

作者: Umair Hassan

分类: cs.CV, cs.CL

发布日期: 2025-09-10

备注: 17 pages, 3 figures, 3 tables. Dataset available at https://huggingface.co/datasets/umairhassan02/urdu-translated-coco-captions-subset. Scripts and notebooks to reproduce results available at https://github.com/umair-hassan2/COCO-Urdu


💡 一句话要点

COCO-Urdu:构建大规模乌尔都语图像描述数据集,促进多模态研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乌尔都语 图像描述 多模态学习 数据集构建 机器翻译

📋 核心要点

  1. 多模态和视觉-语言研究中,乌尔都语资源严重不足,阻碍了相关系统的开发和多语言模型的训练。
  2. COCO-Urdu通过翻译和质量评估,构建了大规模高质量的乌尔都语图像描述数据集,填补了资源空白。
  3. 实验表明,COCO-Urdu在多个指标上表现良好,为乌尔都语相关的多模态研究提供了坚实的基础。

📝 摘要(中文)

本文提出了COCO-Urdu,一个大规模的乌尔都语图像描述数据集,旨在弥补多模态和视觉-语言研究中乌尔都语资源的匮乏。该数据集基于MS COCO构建,包含59,000张图像和319,000条乌尔都语描述,通过分层抽样保留了原始分布。描述使用SeamlessM4T v2翻译,并通过混合多模态质量评估框架进行验证,该框架集成了COMET-Kiwi(翻译质量)、基于CLIP的相似度(视觉对齐)以及BERTScore与回译(语义一致性)。低质量的描述通过开源大型语言模型迭代改进。COCO-Urdu在BLEU、SacreBLEU和chrF等指标上表现出色。据我们所知,COCO-Urdu是目前最大的公开乌尔都语图像描述数据集。通过发布数据集和质量评估流程,旨在减少多模态研究中的语言偏差,并为包容性的视觉-语言系统奠定基础。

🔬 方法详解

问题定义:现有视觉-语言模型主要集中在高资源语言上,忽略了像乌尔都语这样拥有超过2.5亿使用者的语言。缺乏大规模高质量的乌尔都语图像描述数据集,限制了乌尔都语视觉-语言系统的发展,并加剧了多语言模型中的语言偏差。

核心思路:本文的核心思路是利用现有的MS COCO数据集,通过机器翻译生成乌尔都语描述,并设计一个多模态质量评估框架来筛选和优化翻译结果,从而构建一个高质量的大规模乌尔都语图像描述数据集。这样既能降低数据获取成本,又能保证数据集的多样性和规模。

技术框架:COCO-Urdu的构建流程主要包括以下几个阶段:1) 数据选择:从MS COCO数据集中选择图像,并进行分层抽样以保留原始分布。2) 机器翻译:使用SeamlessM4T v2将英文描述翻译成乌尔都语。3) 质量评估:使用混合多模态质量评估框架对翻译结果进行评估。4) 迭代优化:对于低质量的描述,使用开源大型语言模型进行迭代改进。

关键创新:该论文的关键创新在于提出了一个混合多模态质量评估框架,该框架综合考虑了翻译质量、视觉对齐和语义一致性。具体来说,它集成了COMET-Kiwi用于评估翻译质量,基于CLIP的相似度用于评估视觉对齐,以及BERTScore与回译用于评估语义一致性。这种多维度的评估方法能够更准确地衡量翻译质量,并筛选出高质量的乌尔都语描述。

关键设计:在质量评估框架中,COMET-Kiwi用于评估翻译的流畅性和准确性;CLIP模型用于计算图像和描述之间的相似度,确保描述与图像内容一致;BERTScore结合回译技术,用于评估原始英文描述和回译后的英文描述之间的语义相似度,从而保证翻译的语义一致性。此外,对于低质量的描述,使用开源大型语言模型进行迭代优化,可以进一步提高数据集的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

COCO-Urdu数据集包含59,000张图像和319,000条乌尔都语描述,是目前最大的公开乌尔都语图像描述数据集。在BLEU、SacreBLEU和chrF等指标上的评估结果表明,该数据集具有较高的质量。例如,在SacreBLEU上的得分达到了一个可观的水平,证明了翻译质量的可靠性。该数据集的发布为乌尔都语相关的多模态研究提供了重要的资源。

🎯 应用场景

COCO-Urdu数据集可广泛应用于乌尔都语相关的视觉-语言任务,如图像描述生成、视觉问答、图像检索等。它有助于开发更具包容性的多语言视觉-语言模型,并促进乌尔都语在人工智能领域的应用。该数据集还有助于研究语言偏差问题,并为构建更公平、更普惠的AI系统提供数据支持。

📄 摘要(原文)

Urdu, spoken by over 250 million people, remains critically under-served in multimodal and vision-language research. The absence of large-scale, high-quality datasets has limited the development of Urdu-capable systems and reinforced biases in multilingual vision-language models trained primarily on high-resource languages. To address this gap, we present COCO-Urdu, a large-scale image-caption dataset derived from MS COCO, containing 59,000 images and 319,000 Urdu captions selected through stratified sampling to preserve the original distribution. Captions were translated using SeamlessM4T v2 and validated with a hybrid multimodal quality estimation framework that integrates COMET-Kiwi for translation quality, CLIP-based similarity for visual grounding, and BERTScore with back-translation for semantic consistency; low-scoring captions were iteratively refined using open-source large language models. We further benchmark COCO-Urdu on BLEU, SacreBLEU, and chrF, reporting consistently strong results. To the best of our knowledge, COCO-Urdu is the largest publicly available Urdu captioning dataset. By releasing both the dataset and the quality estimation pipeline, we aim to reduce language bias in multimodal research and establish a foundation for inclusive vision-language systems.