AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

📄 arXiv: 2603.09689v1 📥 PDF

作者: Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le

分类: cs.CV, cs.AI

发布日期: 2026-03-10


💡 一句话要点

提出AutoViVQA:一个大规模自动构建的越南语视觉问答数据集。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 越南语 多模态学习 Transformer 数据集构建

📋 核心要点

  1. 现有VQA系统存在严重的语言偏差,需要更强调视觉基础和数据集平衡。
  2. 利用PhoBERT和ViT等预训练模型,探索基于Transformer的越南语VQA。
  3. 系统比较多语言环境下的自动评估指标,以提升VQA评估的准确性。

📝 摘要(中文)

视觉问答(VQA)是一项基础的多模态任务,要求模型能够联合理解视觉和文本信息。早期的VQA系统严重依赖语言偏差,促使后续工作强调视觉基础和平衡数据集。随着大规模预训练Transformer在文本和视觉领域的成功——例如用于越南语理解的PhoBERT和用于图像表征学习的Vision Transformers (ViT)——多模态融合取得了显著进展。对于越南语VQA,已经引入了几个数据集来促进低资源多模态学习的研究,包括ViVQA、OpenViVQA和最近提出的ViTextVQA。这些资源使得能够在越南语环境中对整合语言和视觉特征的模型进行基准测试。VQA系统的评估通常采用最初为图像字幕或机器翻译设计的自动指标,例如BLEU、METEOR、CIDEr、Recall、Precision和F1-score。然而,最近的研究表明,大型语言模型可以进一步提高VQA任务中自动评估与人类判断之间的一致性。在这项工作中,我们探索了使用基于Transformer的架构进行越南语视觉问答,利用文本和视觉预训练,同时系统地比较多语言环境下的自动评估指标。

🔬 方法详解

问题定义:论文旨在构建一个大规模的越南语视觉问答数据集,并探索基于Transformer的架构在该数据集上的性能。现有越南语VQA数据集规模有限,且可能存在偏差,影响模型的泛化能力。此外,如何有效评估越南语VQA模型的性能,特别是自动评估指标与人类判断的一致性,也是一个挑战。

核心思路:论文的核心思路是自动构建大规模的越南语VQA数据集,并利用预训练的PhoBERT和ViT模型进行多模态融合。通过大规模数据训练,提升模型对视觉和文本信息的联合理解能力,并减少语言偏差的影响。同时,研究不同的自动评估指标在越南语VQA任务中的表现,以选择更合适的评估方法。

技术框架:论文的技术框架主要包括以下几个部分:1) 数据集构建:设计自动化的数据生成流程,构建大规模的越南语VQA数据集AutoViVQA。2) 模型构建:采用基于Transformer的架构,例如融合PhoBERT和ViT的模型,进行多模态特征提取和融合。3) 评估指标:比较不同的自动评估指标,例如BLEU、METEOR、CIDEr等,在越南语VQA任务中的表现,并分析其与人类判断的一致性。

关键创新:论文的关键创新在于:1) 提出了AutoViVQA数据集,这是一个大规模的自动构建的越南语VQA数据集,可以有效促进越南语VQA的研究。2) 系统地比较了不同的自动评估指标在越南语VQA任务中的表现,为模型评估提供了参考。

关键设计:数据集构建的具体方法未知,论文中可能涉及一些数据清洗、问题生成、答案选择等策略。模型方面,可能采用了某种多模态融合机制,例如注意力机制,将PhoBERT和ViT提取的特征进行融合。评估指标方面,可能采用了某种加权平均或者排序学习的方法,来提高自动评估指标与人类判断的一致性。(以上部分为推测,因为摘要中没有详细说明)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了AutoViVQA数据集,为越南语VQA研究提供了新的资源。虽然摘要中没有给出具体的实验结果,但可以推测,基于AutoViVQA数据集训练的模型,在越南语VQA任务上应该能够取得较好的性能。此外,对自动评估指标的比较分析,也为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于智能客服、图像搜索、教育辅助等领域。例如,在智能客服中,可以根据用户提出的关于图像的问题,自动给出答案。在教育领域,可以辅助学生理解图像内容,提高学习效率。未来,该技术有望进一步拓展到更多多模态应用场景。

📄 摘要(原文)

Visual Question Answering (VQA) is a fundamental multimodal task that requires models to jointly understand visual and textual information. Early VQA systems relied heavily on language biases, motivating subsequent work to emphasize visual grounding and balanced datasets. With the success of large-scale pre-trained transformers for both text and vision domains -- such as PhoBERT for Vietnamese language understanding and Vision Transformers (ViT) for image representation learning -- multimodal fusion has achieved remarkable progress. For Vietnamese VQA, several datasets have been introduced to promote research in low-resource multimodal learning, including ViVQA, OpenViVQA, and the recently proposed ViTextVQA. These resources enable benchmarking of models that integrate linguistic and visual features in the Vietnamese context. Evaluation of VQA systems often employs automatic metrics originally designed for image captioning or machine translation, such as BLEU, METEOR, CIDEr, Recall, Precision, and F1-score. However, recent research suggests that large language models can further improve the alignment between automatic evaluation and human judgment in VQA tasks. In this work, we explore Vietnamese Visual Question Answering using transformer-based architectures, leveraging both textual and visual pre-training while systematically comparing automatic evaluation metrics under multilingual settings.