Towards Visual Grounding: A Survey

📄 arXiv: 2412.20206v3 📥 PDF

作者: Linhui Xiao, Xiaoshan Yang, Xiangyuan Lan, Yaowei Wang, Changsheng Xu

分类: cs.CV

发布日期: 2024-12-28 (更新: 2025-11-11)

备注: Accepted by TPAMI 2025. We keep tracing related works at https://github.com/linhuixiao/Awesome-Visual-Grounding

DOI: 10.1109/TPAMI.2025.3630635

🔗 代码/项目: GITHUB


💡 一句话要点

视觉定位综述:系统梳理最新进展与挑战,促进多模态理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 指代表达式理解 多模态学习 深度学习 综述

📋 核心要点

  1. 现有视觉定位方法难以有效处理新兴概念,如基于定位的预训练和广义视觉定位,面临新的挑战。
  2. 本综述系统地总结了视觉定位领域的最新进展,并对各种设置进行了细致的定义和组织,以促进公平比较。
  3. 论文涵盖了数据集、应用和高级主题,并概述了视觉定位面临的挑战,为未来研究提供了方向。

📝 摘要(中文)

视觉定位(Visual Grounding),又称指代表达式理解(Referring Expression Comprehension)和短语定位(Phrase Grounding),旨在根据给定的文本表达式定位图像中的特定区域。这项任务模拟了视觉和语言模态之间常见的指代关系,使机器能够发展类人多模态理解能力,并在各个领域具有广泛的应用。自2021年以来,视觉定位取得了显著进展,涌现出诸如基于定位的预训练、定位多模态LLM、广义视觉定位和千兆像素定位等新概念,带来了许多新的挑战。本综述首先考察了视觉定位的发展历史,并概述了必要的基础知识。然后,系统地跟踪和总结了这些进展,并细致地定义和组织了各种设置,以规范未来的研究并确保公平的比较。此外,我们深入研究了许多相关的数据集和应用,并重点介绍了几个高级主题。最后,我们概述了视觉定位面临的挑战,并为未来的研究提出了有价值的方向,这可能为后续研究人员提供灵感。通过提取常见的技术细节,本综述涵盖了过去十年中每个子主题的代表性工作。据我们所知,本文代表了目前视觉定位领域最全面的概述。本综述旨在适合初学者和经验丰富的研究人员,是理解关键概念和跟踪最新研究进展的宝贵资源。我们将持续跟踪相关工作,地址为https://github.com/linhuixiao/Awesome-Visual-Grounding。

🔬 方法详解

问题定义:视觉定位旨在根据给定的文本描述,在图像中找到对应的区域。现有方法在处理新兴概念,如grounded pre-training,grounding multimodal LLMs,generalized visual grounding,giga-pixel grounding等方面存在不足,难以应对新的挑战,缺乏统一的评估标准。

核心思路:本综述通过系统性地回顾和总结视觉定位领域的研究进展,对各种设置进行标准化定义,从而为未来的研究提供一个清晰的框架和公平的比较基础。同时,通过分析现有方法的优缺点,为未来的研究方向提供指导。

技术框架:本综述的技术框架主要包括以下几个部分:1)视觉定位的发展历史和基础知识概述;2)对2021年以来涌现的新概念和进展进行系统性跟踪和总结;3)对各种设置进行细致的定义和组织,以规范未来的研究;4)深入研究相关数据集和应用,并重点介绍高级主题;5)概述视觉定位面临的挑战,并为未来的研究提出有价值的方向。

关键创新:本综述的关键创新在于其全面性和系统性。它不仅涵盖了视觉定位领域的基础知识和最新进展,还对各种设置进行了标准化定义,并对未来的研究方向提出了建议。这是目前视觉定位领域最全面的综述。

关键设计:本综述的关键设计在于其结构化的组织方式。它首先介绍了视觉定位的背景知识,然后分别讨论了不同的子领域和应用,最后总结了挑战和未来的研究方向。这种结构化的组织方式使得读者可以快速了解视觉定位领域的全貌,并找到自己感兴趣的子领域。

🖼️ 关键图片

img_0

📊 实验亮点

本综述全面回顾了视觉定位领域过去十年的研究进展,并重点关注了2021年以来的新兴概念和挑战。它系统地总结了各种方法,并对数据集和应用进行了深入分析。该综述为初学者和经验丰富的研究人员提供了一个宝贵的资源,有助于理解关键概念和跟踪最新研究进展。

🎯 应用场景

视觉定位技术在机器人导航、图像检索、视频监控、人机交互等领域具有广泛的应用前景。例如,在机器人导航中,机器人可以根据用户的指令(例如,“找到桌子上的红色杯子”)来定位目标物体。在图像检索中,用户可以通过文本描述来检索图像中的特定区域。该技术的发展将促进更智能、更人性化的应用。

📄 摘要(原文)

Visual Grounding, also known as Referring Expression Comprehension and Phrase Grounding, aims to ground the specific region(s) within the image(s) based on the given expression text. This task simulates the common referential relationships between visual and linguistic modalities, enabling machines to develop human-like multimodal comprehension capabilities. Consequently, it has extensive applications in various domains. However, since 2021, visual grounding has witnessed significant advancements, with emerging new concepts such as grounded pre-training, grounding multimodal LLMs, generalized visual grounding, and giga-pixel grounding, which have brought numerous new challenges. In this survey, we first examine the developmental history of visual grounding and provide an overview of essential background knowledge. We systematically track and summarize the advancements, and then meticulously define and organize the various settings to standardize future research and ensure a fair comparison. Additionally, we delve into numerous related datasets and applications, and highlight several advanced topics. Finally, we outline the challenges confronting visual grounding and propose valuable directions for future research, which may serve as inspiration for subsequent researchers. By extracting common technical details, this survey encompasses the representative work in each subtopic over the past decade. To the best of our knowledge, this paper represents the most comprehensive overview currently available in the field of visual grounding. This survey is designed to be suitable for both beginners and experienced researchers, serving as an invaluable resource for understanding key concepts and tracking the latest research developments. We keep tracing related work at https://github.com/linhuixiao/Awesome-Visual-Grounding.