AutoArabic: A Three-Stage Framework for Localizing Video-Text Retrieval Benchmarks

📄 arXiv: 2509.16438v1 📥 PDF

作者: Mohamed Eltahir, Osamah Sarraj, Abdulrahman Alfrihidi, Taha Alshatiri, Mohammed Khurd, Mohammed Bremoo, Tanveer Hussain

分类: cs.CV, cs.CL

发布日期: 2025-09-19

备注: Accepted at ArabicNLP 2025 (EMNLP 2025 workshop)

🔗 代码/项目: GITHUB


💡 一句话要点

AutoArabic:提出三阶段框架,用于视频-文本检索基准的阿拉伯语本地化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频文本检索 阿拉伯语本地化 大型语言模型 自动化翻译 错误检测

📋 核心要点

  1. 现有视频-文本检索基准主要集中于英语,阿拉伯语缺乏本地化评估指标,限制了相关研究。
  2. AutoArabic框架利用大型语言模型自动翻译非阿拉伯语基准,并集成错误检测模块减少人工校对。
  3. 实验表明,生成的阿拉伯语数据集DiDeMo-AR保留了原始数据集的难度,且后编辑能进一步提升性能。

📝 摘要(中文)

视频到文本和文本到视频的检索任务主要集中在英语基准数据集(如DiDeMo、MSR-VTT)和新兴的多语言语料库(如RUDDER)上,而阿拉伯语领域缺乏本地化的评估指标。我们提出了一个三阶段框架AutoArabic,利用最先进的大型语言模型(LLMs)将非阿拉伯语基准数据集翻译成现代标准阿拉伯语,从而将所需的人工校对工作减少了近四倍。该框架包含一个错误检测模块,能够以97%的准确率自动标记潜在的翻译错误。我们将该框架应用于视频检索基准数据集DiDeMo,生成了DiDeMo-AR,这是一个包含40144个流畅阿拉伯语描述的变体。我们对翻译错误进行了分析,并将其组织成一个富有洞察力的分类,以指导未来的阿拉伯语本地化工作。我们在阿拉伯语和英语变体上使用相同的超参数训练了一个CLIP风格的基线模型,发现存在适度的性能差距(在Recall@1上约为3个百分点),表明阿拉伯语本地化保留了基准数据集的难度。我们评估了三种后编辑预算(零/仅标记/完全),发现性能随着更多后编辑而单调提高,而原始LLM输出(零预算)仍然可用。为了确保其他语言的可复现性,我们已在https://github.com/Tahaalshatiri/AutoArabic上提供了代码。

🔬 方法详解

问题定义:当前视频-文本检索领域缺乏针对阿拉伯语的本地化基准数据集,阻碍了阿拉伯语相关研究的发展。现有方法依赖人工翻译,成本高、效率低,且难以保证翻译质量的一致性。因此,需要一种高效、自动化的方法来生成高质量的阿拉伯语视频-文本检索基准。

核心思路:利用大型语言模型(LLMs)强大的翻译能力,将现有的非阿拉伯语基准数据集自动翻译成现代标准阿拉伯语。通过引入错误检测模块,自动识别潜在的翻译错误,从而减少人工校对的工作量,提高翻译效率和质量。

技术框架:AutoArabic框架包含三个主要阶段:1) 翻译阶段:使用大型语言模型将非阿拉伯语文本描述翻译成现代标准阿拉伯语。2) 错误检测阶段:利用训练好的错误检测模型,自动识别翻译结果中潜在的错误。3) 后编辑阶段:根据错误检测结果,进行人工校对和修正,提高翻译质量。整个流程旨在自动化生成高质量的阿拉伯语视频-文本检索基准。

关键创新:该框架的关键创新在于将大型语言模型的翻译能力与错误检测模块相结合,实现了自动化、高效的阿拉伯语基准数据集本地化。与传统的人工翻译方法相比,AutoArabic显著降低了人工成本,提高了翻译效率,并能保证翻译质量的一致性。错误检测模块的引入,进一步减少了人工校对的工作量,提高了整体效率。

关键设计:错误检测模块使用监督学习方法,训练一个二分类器来判断翻译结果是否正确。训练数据包括人工标注的正确和错误翻译样本。模型选择方面,可以使用各种文本分类模型,如BERT、RoBERTa等。错误检测模块的准确率达到97%。后编辑阶段,可以根据不同的预算,选择不同的校对策略,如零预算(不进行人工校对)、仅校对标记错误、完全校对。

🖼️ 关键图片

img_0

📊 实验亮点

通过AutoArabic框架生成的DiDeMo-AR数据集包含40144个流畅的阿拉伯语描述。在DiDeMo-AR上训练的CLIP风格基线模型,与在原始DiDeMo数据集上训练的模型相比,性能差距仅为3个百分点(Recall@1),表明该框架保留了原始数据集的难度。实验还表明,随着后编辑预算的增加,检索性能单调提升,即使在零预算下,原始LLM输出仍然可用。

🎯 应用场景

该研究成果可应用于构建多语言视频-文本检索系统,促进阿拉伯语内容在多媒体领域的应用。AutoArabic框架可推广到其他低资源语言的基准数据集本地化,加速多语言人工智能的发展。此外,该框架的错误检测模块可用于提高机器翻译的质量。

📄 摘要(原文)

Video-to-text and text-to-video retrieval are dominated by English benchmarks (e.g. DiDeMo, MSR-VTT) and recent multilingual corpora (e.g. RUDDER), yet Arabic remains underserved, lacking localized evaluation metrics. We introduce a three-stage framework, AutoArabic, utilizing state-of-the-art large language models (LLMs) to translate non-Arabic benchmarks into Modern Standard Arabic, reducing the manual revision required by nearly fourfold. The framework incorporates an error detection module that automatically flags potential translation errors with 97% accuracy. Applying the framework to DiDeMo, a video retrieval benchmark produces DiDeMo-AR, an Arabic variant with 40,144 fluent Arabic descriptions. An analysis of the translation errors is provided and organized into an insightful taxonomy to guide future Arabic localization efforts. We train a CLIP-style baseline with identical hyperparameters on the Arabic and English variants of the benchmark, finding a moderate performance gap (about 3 percentage points at Recall@1), indicating that Arabic localization preserves benchmark difficulty. We evaluate three post-editing budgets (zero/ flagged-only/ full) and find that performance improves monotonically with more post-editing, while the raw LLM output (zero-budget) remains usable. To ensure reproducibility to other languages, we made the code available at https://github.com/Tahaalshatiri/AutoArabic.