Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision

📄 arXiv: 2603.26646v1 📥 PDF

作者: Ling Li, Bowen Liu, Zinuo Zhan, Peng Jie, Jianhui Zhong, Kenglun Chang, Zhidong Deng

分类: cs.CV

发布日期: 2026-03-27


💡 一句话要点

提出EgoPoint-Ground数据集和SV-CoT框架,解决以手势指向为线索的自中心视觉定位问题。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 手势指向 自中心视觉 多模态融合 链式思考

📋 核心要点

  1. 现有视觉定位方法依赖文本描述,忽略了自中心视角下更自然的非语言指示(如手势)。
  2. 提出EgoPoint-Ground数据集和SV-CoT框架,利用视觉链式思考协同手势和语言线索。
  3. 实验表明,SV-CoT在手势指向视觉定位任务上,性能超越现有方法11.7%。

📝 摘要(中文)

传统视觉定位主要依赖文本描述来定位物体,这种方式难以处理语言歧义,并且忽略了真实交互中常见的非语言指示线索。为了弥补这一差距,我们提出了EgoPoint-Ground,这是首个大规模多模态数据集,专门用于自中心视角下的指示性视觉定位。该数据集包含超过15k个复杂场景中的交互样本,提供了丰富、多粒度的标注,包括手-目标边界框对和密集的语义描述。我们为手势指向的指代表达式解析建立了一个全面的基准,评估了各种主流的多模态大型语言模型(MLLM)和最先进的VG架构。此外,我们提出了一种新的基线框架SV-CoT,它将定位问题重新定义为一个结构化推理过程,通过视觉链式思考范式协同手势和语言线索。大量实验表明,SV-CoT比现有方法实现了11.7%的绝对改进,有效地缓解了语义歧义,并提高了智能体理解多模态物理意图的能力。数据集和代码将公开。

🔬 方法详解

问题定义:论文旨在解决自中心视觉中,如何利用手势指向和语言描述来精确定位目标物体的问题。现有方法主要依赖文本描述,忽略了手势等非语言信息,导致在存在语言歧义或需要更精确指示的情况下,定位效果不佳。

核心思路:论文的核心思路是将视觉定位问题建模为一个结构化的推理过程,即Visual Chain-of-Thought (CoT)。通过CoT,模型可以逐步推理,首先理解手势指向的意图,然后结合语言描述,最终确定目标物体的位置。这种方式能够更好地利用手势和语言的互补信息,缓解语言歧义。

技术框架:整体框架包括以下几个主要模块:1) 特征提取模块:提取图像、手势和语言的特征。2) Visual CoT模块:利用视觉信息进行逐步推理,例如,首先识别手部位置,然后推断指向方向,最后结合场景信息确定候选目标区域。3) 融合模块:将视觉CoT的推理结果与语言特征进行融合。4) 定位模块:根据融合后的特征,预测目标物体的边界框。

关键创新:论文的关键创新在于提出了SV-CoT框架,将视觉定位问题转化为一个结构化的推理过程。通过Visual CoT,模型能够更好地理解手势指向的意图,并将其与语言描述相结合,从而提高定位精度。此外,EgoPoint-Ground数据集的构建也为该领域的研究提供了重要的数据支持。

关键设计:在Visual CoT模块中,可以使用Transformer结构来建模视觉推理过程。损失函数可以采用交叉熵损失和IoU损失的组合,以同时优化分类和定位精度。手势特征的提取可以采用预训练的手部姿态估计模型。语言特征的提取可以采用预训练的语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的SV-CoT框架在EgoPoint-Ground数据集上取得了显著的性能提升,相比现有方法,绝对提升了11.7%。这表明SV-CoT能够有效地利用手势和语言信息,缓解语义歧义,提高定位精度。同时,对主流MLLM和VG架构的评估,为后续研究提供了基准。

🎯 应用场景

该研究成果可应用于人机交互、机器人导航、增强现实等领域。例如,在机器人导航中,机器人可以根据人的手势指向和口头指令,准确地识别目标地点或物体,从而实现更自然、更高效的人机协作。在增强现实中,用户可以通过手势指向和语音描述,与虚拟环境中的物体进行交互。

📄 摘要(原文)

Traditional Visual Grounding (VG) predominantly relies on textual descriptions to localize objects, a paradigm that inherently struggles with linguistic ambiguity and often ignores non-verbal deictic cues prevalent in real-world interactions. In natural egocentric engagements, hand-pointing combined with speech forms the most intuitive referring mechanism. To bridge this gap, we introduce EgoPoint-Ground, the first large-scale multimodal dataset dedicated to egocentric deictic visual grounding. Comprising over \textbf{15k} interactive samples in complex scenes, the dataset provides rich, multi-grained annotations including hand-target bounding box pairs and dense semantic captions. We establish a comprehensive benchmark for hand-pointing referring expression resolution, evaluating a wide spectrum of mainstream Multimodal Large Language Models (MLLMs) and state-of-the-art VG architectures. Furthermore, we propose SV-CoT, a novel baseline framework that reformulates grounding as a structured inference process, synergizing gestural and linguistic cues through a Visual Chain-of-Thought paradigm. Extensive experiments demonstrate that SV-CoT achieves an $\textbf{11.7\%}$ absolute improvement over existing methods, effectively mitigating semantic ambiguity and advancing the capability of agents to comprehend multimodal physical intents. The dataset and code will be made publicly available.