WebQuest: A Benchmark for Multimodal QA on Web Page Sequences

📄 arXiv: 2409.13711v2 📥 PDF

作者: Maria Wang, Srinivas Sunkara, Gilles Baechler, Jason Lin, Yun Zhu, Fedir Zubach, Lei Shu, Jindong Chen

分类: cs.IR, cs.AI

发布日期: 2024-09-06 (更新: 2024-09-24)


💡 一句话要点

WebQuest:一个用于网页序列多模态问答的基准数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态问答 网页序列 基准数据集 信息提取 多页面推理

📋 核心要点

  1. 现有UI基准测试主要关注多步骤网页导航和任务完成,缺乏对跨多页信息提取和组合的有效评估。
  2. WebQuest数据集通过引入多页面问答场景,侧重于信息提取、多模态检索和信息组合,从而弥补了现有基准的不足。
  3. 实验结果表明,现有模型在单屏幕问答上表现较好,但在多屏幕推理上存在显著差距,思维链提示可以提升多屏幕推理能力。

📝 摘要(中文)

强大的多模态大型语言模型(LLM)的兴起,增强了构建网页代理的可行性,这些代理能够以越来越高的自主性协助用户在各种人机界面上检索信息和完成任务。因此,有必要构建具有挑战性的基准,涵盖反映真实世界使用的各种用例。本文提出了WebQuest,一个多页面问答数据集,需要跨多个相关网页进行推理。与侧重于多步骤网页导航和任务完成的现有UI基准相比,我们的数据集评估了信息提取、多模态检索以及来自多个网页的信息组合。WebQuest包括三个问题类别:单屏幕问答、多屏幕问答和基于导航轨迹的问答。我们在我们的数据集上评估了领先的专有多模态模型,如GPT-4V、Gemini Flash、Claude 3,以及开源模型,如InstructBLIP、PaliGemma,揭示了单屏幕和多屏幕推理之间存在显著差距。最后,我们研究了诸如思维链提示等推理时间技术,以提高模型在多屏幕推理方面的能力。

🔬 方法详解

问题定义:论文旨在解决多页面网页序列上的多模态问答问题。现有方法在处理需要跨多个网页进行推理的任务时表现不佳,无法有效提取和组合来自不同页面的信息。现有UI基准侧重于导航和任务完成,忽略了信息提取和组合能力。

核心思路:论文的核心思路是构建一个包含多页面问答场景的数据集,以此来评估和提升模型在多页面信息提取、多模态检索和信息组合方面的能力。通过引入不同类型的问题(单屏幕、多屏幕、导航轨迹),全面评估模型在复杂网页环境下的推理能力。

技术框架:WebQuest数据集包含三个主要部分:单屏幕问答、多屏幕问答和基于导航轨迹的问答。单屏幕问答评估模型在单个网页上的信息提取能力;多屏幕问答评估模型跨多个网页进行推理的能力;基于导航轨迹的问答则需要模型理解用户在网页之间的导航行为,并基于此回答问题。数据集的构建过程包括网页抓取、问题生成和答案标注等步骤。

关键创新:WebQuest的关键创新在于其多页面问答的设定,这与现有的UI基准形成对比,后者主要关注单页面或连续操作。WebQuest更侧重于评估模型的信息提取、多模态检索和信息组合能力,更贴近真实世界的网页使用场景。

关键设计:WebQuest数据集包含了多种类型的问题,以评估模型在不同方面的能力。例如,多屏幕问答需要模型理解多个网页之间的关系,并从中提取相关信息。论文还探索了思维链提示等技术,以提高模型在多屏幕推理方面的性能。数据集的规模和多样性保证了评估的可靠性和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,领先的专有模型(如GPT-4V、Gemini Flash、Claude 3)在WebQuest数据集上表现出单屏幕和多屏幕推理之间的显著差距。开源模型(如InstructBLIP、PaliGemma)的性能相对较低。思维链提示可以有效提升模型在多屏幕推理方面的能力,但仍有很大的提升空间。

🎯 应用场景

WebQuest数据集可用于训练和评估各种多模态LLM,从而提升其在网页信息检索、智能助手、自动化报告生成等领域的应用能力。该数据集有助于开发更智能的网页代理,能够更有效地帮助用户从互联网获取信息并完成任务。

📄 摘要(原文)

The rise of powerful multimodal LLMs has enhanced the viability of building web agents which can, with increasing levels of autonomy, assist users to retrieve information and complete tasks on various human-computer interfaces. It is hence necessary to build challenging benchmarks that span a wide-variety of use cases reflecting real-world usage. In this work, we present WebQuest, a multi-page question-answering dataset that requires reasoning across multiple related web pages. In contrast to existing UI benchmarks that focus on multi-step web navigation and task completion, our dataset evaluates information extraction, multimodal retrieval and composition of information from many web pages. WebQuest includes three question categories: single-screen QA, multi-screen QA, and QA based on navigation traces. We evaluate leading proprietary multimodal models like GPT-4V, Gemini Flash, Claude 3, and open source models like InstructBLIP, PaliGemma on our dataset, revealing a significant gap between single-screen and multi-screen reasoning. Finally, we investigate inference time techniques like Chain-of-Thought prompting to improve model capabilities on multi-screen reasoning.