Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge

📄 arXiv: 2407.04255v1 📥 PDF

作者: Xiangyu Wu, Zhouyang Chi, Yang Yang, Jianfeng Lu

分类: cs.CV

发布日期: 2024-07-05

备注: Second Place of WSDM2023 Toloka Visual Question Answering Challenge


💡 一句话要点

提出基于OFA的三阶段视觉问答方案,在WSDM2023 Toloka VQA挑战赛中获得第二名

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 视觉定位 多模态学习 预训练模型 迁移学习

📋 核心要点

  1. 现有视觉问答方法难以精确定位图像中与问题相关的区域,限制了答案的准确性。
  2. 将视觉问答任务转化为视觉定位任务,利用预训练模型学习通用语义信息,并进行迁移学习。
  3. 通过三阶段训练和后处理策略,显著提升了模型在视觉问答任务中的性能,最终排名第二。

📝 摘要(中文)

本文介绍了我们在WSDM2023 Toloka视觉问答挑战赛中的解决方案。受到多模态预训练模型在各种下游任务(例如,视觉问答、视觉定位和跨模态检索)中的应用的启发,我们将本次比赛视为一个视觉定位任务,其中输入是一张图像和一个问题,引导模型回答问题并在图像上以边界框的形式显示答案。我们为该任务设计了一个三阶段的解决方案。具体来说,我们使用视觉-语言预训练模型OFA作为基础。在第一阶段,我们构建了一个类似于比赛数据集的大规模合成数据集,并对模型进行粗调,以学习广义的语义信息。在第二阶段,我们将比赛任务视为视觉定位任务,加载第一阶段的权重,并在比赛数据集上继续微调模型,将第一阶段学习的语义信息迁移到比赛任务。最后,我们设计了一个边界框匹配和替换的后处理策略来纠正模型的预测结果。我们的团队在最终排行榜上获得了76.342分,排名第二。

🔬 方法详解

问题定义:论文旨在解决视觉问答任务中,模型难以准确理解问题并定位图像相关区域的问题。现有方法通常难以有效利用图像和文本信息之间的关联性,导致答案不够精确,尤其是在需要精确定位目标区域的场景下表现不佳。

核心思路:论文的核心思路是将视觉问答任务转化为视觉定位任务,即模型不仅需要回答问题,还需要在图像中定位与答案相关的区域。通过这种方式,模型可以更直接地学习图像和文本之间的对应关系,从而提高答案的准确性和可解释性。

技术框架:整体框架包含三个阶段:1) 粗调阶段:使用大规模合成数据集对OFA模型进行预训练,学习通用的视觉和语言语义信息。2) 微调阶段:将比赛数据集视为视觉定位任务,加载粗调阶段的权重,并在此基础上进行微调,将通用语义信息迁移到特定任务。3) 后处理阶段:设计边界框匹配和替换策略,对模型的预测结果进行修正,进一步提高定位精度。

关键创新:关键创新在于将视觉问答任务转化为视觉定位任务,并利用预训练模型OFA进行迁移学习。这种方法能够有效利用预训练模型学习到的通用语义信息,并将其迁移到特定任务中,从而提高模型的性能。此外,后处理策略也进一步提升了定位精度。

关键设计:在第一阶段,合成数据集的构建需要保证数据多样性和质量,以提高模型的泛化能力。在第二阶段,需要仔细调整学习率等超参数,以避免过拟合。在第三阶段,边界框匹配和替换策略需要根据具体任务进行设计,以达到最佳效果。损失函数采用标准的视觉定位损失函数,网络结构采用OFA模型的默认结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该团队在WSDM2023 Toloka视觉问答挑战赛中取得了第二名的成绩,最终得分为76.342。通过三阶段训练和后处理策略,显著提升了视觉问答的性能。该方法验证了将视觉问答任务转化为视觉定位任务的有效性,并展示了预训练模型在多模态任务中的强大潜力。

🎯 应用场景

该研究成果可应用于智能客服、图像搜索、自动驾驶等领域。例如,在智能客服中,可以帮助机器人理解用户提出的问题,并在图像中定位相关对象,从而提供更准确的答案。在自动驾驶中,可以帮助车辆理解交通标志和行人意图,从而提高驾驶安全性。该方法具有良好的可扩展性,可以应用于其他多模态任务。

📄 摘要(原文)

In this paper, we present our solution for the WSDM2023 Toloka Visual Question Answering Challenge. Inspired by the application of multimodal pre-trained models to various downstream tasks(e.g., visual question answering, visual grounding, and cross-modal retrieval), we approached this competition as a visual grounding task, where the input is an image and a question, guiding the model to answer the question and display the answer as a bounding box on the image. We designed a three-stage solution for this task. Specifically, we used the visual-language pre-trained model OFA as the foundation. In the first stage, we constructed a large-scale synthetic dataset similar to the competition dataset and coarse-tuned the model to learn generalized semantic information. In the second stage, we treated the competition task as a visual grounding task, loaded the weights from the previous stage, and continued to fine-tune the model on the competition dataset, transferring the semantic information learned in the first stage to the competition task. Finally, we designed a bounding box matching and replacing post-processing strategy to correct the model's prediction results. Our team achieved a score of 76.342 on the final leaderboard, ranking second.