WebVLN: Vision-and-Language Navigation on Websites

作者: Qi Chen, Dileepa Pitawela, Chongyang Zhao, Gengze Zhou, Hsiang-Ting Chen, Qi Wu

分类: cs.CV

发布日期: 2023-12-25

备注: Accepted by AAAI2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出WebVLN任务与数据集，解决网页环境下的视觉语言导航问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 网页导航 HTML结构 多模态融合 WebVLN数据集

📋 核心要点

现有VLN任务主要关注真实环境，忽略了互联网网页这一重要虚拟环境下的导航需求。
WebVLN-Net利用网页底层HTML信息，结合视觉和语言信息，提升了网页导航的准确性。
实验表明，WebVLN-Net在WebVLN-v1数据集上优于现有VLN和Web导航方法，验证了其有效性。

📝 摘要（中文）

视觉语言导航(VLN)旨在使AI智能体能够准确理解并遵循自然语言指令，在真实环境中导航到特定目标位置。本文将VLN扩展到具有重要现实意义的虚拟领域：互联网网页导航，提出了网页视觉语言导航(WebVLN)任务。WebVLN使用基于问题的指令来训练智能体，模拟用户浏览网页的方式。与现有VLN任务仅关注视觉和指令不同，WebVLN智能体进一步考虑了底层Web特定内容（如HTML），这些内容在渲染后的网页上不可见，但包含丰富的视觉和文本信息。为此，我们贡献了一个数据集WebVLN-v1，并提出了一种名为Website-aware VLN Network (WebVLN-Net)的新方法，该方法建立在最先进的VLN技术之上。实验结果表明，WebVLN-Net优于当前的VLN和Web相关导航方法。我们相信，WebVLN任务及其数据集的引入将在VLN领域建立一个新的维度，并为更广泛的视觉语言研究社区做出贡献。

🔬 方法详解

问题定义：现有视觉语言导航(VLN)任务主要集中在真实物理环境中，缺乏对互联网网页环境的关注。网页导航与真实环境导航存在差异，网页包含丰富的底层HTML结构信息，而现有方法无法有效利用这些信息，导致在网页环境中导航性能下降。

核心思路：论文的核心思路是利用网页的底层HTML结构信息来辅助视觉语言导航。通过将HTML信息与视觉和语言信息融合，使智能体能够更好地理解网页内容和结构，从而更准确地执行导航指令。这种方法模拟了用户在浏览网页时，不仅观察页面内容，还会查看网页源代码以获取更多信息的方式。

技术框架：WebVLN-Net的整体架构基于现有的VLN框架，主要包括以下模块：1) 视觉特征提取模块，用于提取网页截图的视觉特征；2) 语言特征提取模块，用于提取导航指令的语言特征；3) HTML特征提取模块，用于提取网页底层HTML结构的特征；4) 多模态融合模块，将视觉、语言和HTML特征进行融合；5) 导航决策模块，根据融合后的特征做出导航决策。

关键创新：论文的关键创新在于引入了HTML信息作为导航的辅助信息，并设计了相应的HTML特征提取模块。与现有方法相比，WebVLN-Net能够更全面地理解网页内容和结构，从而提高导航的准确性。此外，WebVLN-v1数据集的构建也为该领域的研究提供了新的资源。

关键设计：HTML特征提取模块使用了基于Transformer的模型，将HTML代码转换为向量表示。多模态融合模块使用了注意力机制，使智能体能够根据导航指令动态地关注不同的模态信息。损失函数包括导航动作预测损失和目标位置预测损失，用于优化智能体的导航策略。

📊 实验亮点

实验结果表明，WebVLN-Net在WebVLN-v1数据集上显著优于现有的VLN和Web导航方法。具体而言，WebVLN-Net在导航成功率方面比最先进的VLN方法提高了约10%，证明了利用HTML信息进行网页导航的有效性。此外，消融实验也验证了HTML特征提取模块的关键作用。

🎯 应用场景

WebVLN技术可应用于自动化网页浏览、智能客服、信息检索等领域。例如，可以开发智能助手，根据用户指令自动完成网页上的特定任务，如预订机票、查找商品信息等。该技术还可以用于提高搜索引擎的准确性和效率，帮助用户更快地找到所需信息。未来，WebVLN有望成为人机交互的重要方式。

📄 摘要（原文）

Vision-and-Language Navigation (VLN) task aims to enable AI agents to accurately understand and follow natural language instructions to navigate through real-world environments, ultimately reaching specific target locations. We recognise a promising opportunity to extend VLN to a comparable navigation task that holds substantial significance in our daily lives, albeit within the virtual realm: navigating websites on the Internet. This paper proposes a new task named Vision-and-Language Navigation on Websites (WebVLN), where we use question-based instructions to train an agent, emulating how users naturally browse websites. Unlike the existing VLN task that only pays attention to vision and instruction (language), the WebVLN agent further considers underlying web-specific content like HTML, which could not be seen on the rendered web pages yet contains rich visual and textual information. Toward this goal, we contribute a dataset, WebVLN-v1, and introduce a novel approach called Website-aware VLN Network (WebVLN-Net), which is built upon the foundation of state-of-the-art VLN techniques. Experimental results show that WebVLN-Net outperforms current VLN and web-related navigation methods. We believe that the introduction of the new WebVLN task and its dataset will establish a new dimension within the VLN domain and contribute to the broader vision-and-language research community. The code is available at: https://github.com/WebVLN/WebVLN.

WebVLN: Vision-and-Language Navigation on Websites

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册