Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision

作者: Ling Li, Bowen Liu, Zinuo Zhan, Peng Jie, Jianhui Zhong, Kenglun Chang, Zhidong Deng

分类: cs.CV

发布日期: 2026-03-27

💡 一句话要点

提出EgoPoint-Ground数据集和SV-CoT框架，解决以手势指向为线索的自中心视觉定位问题。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 手势指向 自中心视觉 多模态融合 链式思考

📋 核心要点

现有视觉定位方法依赖文本描述，忽略了自中心视角下更自然的非语言指示（如手势）。
提出EgoPoint-Ground数据集和SV-CoT框架，利用视觉链式思考协同手势和语言线索。
实验表明，SV-CoT在手势指向视觉定位任务上，性能超越现有方法11.7%。

📝 摘要（中文）

传统视觉定位主要依赖文本描述来定位物体，这种方式难以处理语言歧义，并且忽略了真实交互中常见的非语言指示线索。为了弥补这一差距，我们提出了EgoPoint-Ground，这是首个大规模多模态数据集，专门用于自中心视角下的指示性视觉定位。该数据集包含超过15k个复杂场景中的交互样本，提供了丰富、多粒度的标注，包括手-目标边界框对和密集的语义描述。我们为手势指向的指代表达式解析建立了一个全面的基准，评估了各种主流的多模态大型语言模型（MLLM）和最先进的VG架构。此外，我们提出了一种新的基线框架SV-CoT，它将定位问题重新定义为一个结构化推理过程，通过视觉链式思考范式协同手势和语言线索。大量实验表明，SV-CoT比现有方法实现了11.7%的绝对改进，有效地缓解了语义歧义，并提高了智能体理解多模态物理意图的能力。数据集和代码将公开。

🔬 方法详解

问题定义：论文旨在解决自中心视觉中，如何利用手势指向和语言描述来精确定位目标物体的问题。现有方法主要依赖文本描述，忽略了手势等非语言信息，导致在存在语言歧义或需要更精确指示的情况下，定位效果不佳。

核心思路：论文的核心思路是将视觉定位问题建模为一个结构化的推理过程，即Visual Chain-of-Thought (CoT)。通过CoT，模型可以逐步推理，首先理解手势指向的意图，然后结合语言描述，最终确定目标物体的位置。这种方式能够更好地利用手势和语言的互补信息，缓解语言歧义。

技术框架：整体框架包括以下几个主要模块：1) 特征提取模块：提取图像、手势和语言的特征。2) Visual CoT模块：利用视觉信息进行逐步推理，例如，首先识别手部位置，然后推断指向方向，最后结合场景信息确定候选目标区域。3) 融合模块：将视觉CoT的推理结果与语言特征进行融合。4) 定位模块：根据融合后的特征，预测目标物体的边界框。

关键创新：论文的关键创新在于提出了SV-CoT框架，将视觉定位问题转化为一个结构化的推理过程。通过Visual CoT，模型能够更好地理解手势指向的意图，并将其与语言描述相结合，从而提高定位精度。此外，EgoPoint-Ground数据集的构建也为该领域的研究提供了重要的数据支持。

关键设计：在Visual CoT模块中，可以使用Transformer结构来建模视觉推理过程。损失函数可以采用交叉熵损失和IoU损失的组合，以同时优化分类和定位精度。手势特征的提取可以采用预训练的手部姿态估计模型。语言特征的提取可以采用预训练的语言模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的SV-CoT框架在EgoPoint-Ground数据集上取得了显著的性能提升，相比现有方法，绝对提升了11.7%。这表明SV-CoT能够有效地利用手势和语言信息，缓解语义歧义，提高定位精度。同时，对主流MLLM和VG架构的评估，为后续研究提供了基准。

🎯 应用场景

该研究成果可应用于人机交互、机器人导航、增强现实等领域。例如，在机器人导航中，机器人可以根据人的手势指向和口头指令，准确地识别目标地点或物体，从而实现更自然、更高效的人机协作。在增强现实中，用户可以通过手势指向和语音描述，与虚拟环境中的物体进行交互。

📄 摘要（原文）

Traditional Visual Grounding (VG) predominantly relies on textual descriptions to localize objects, a paradigm that inherently struggles with linguistic ambiguity and often ignores non-verbal deictic cues prevalent in real-world interactions. In natural egocentric engagements, hand-pointing combined with speech forms the most intuitive referring mechanism. To bridge this gap, we introduce EgoPoint-Ground, the first large-scale multimodal dataset dedicated to egocentric deictic visual grounding. Comprising over \textbf{15k} interactive samples in complex scenes, the dataset provides rich, multi-grained annotations including hand-target bounding box pairs and dense semantic captions. We establish a comprehensive benchmark for hand-pointing referring expression resolution, evaluating a wide spectrum of mainstream Multimodal Large Language Models (MLLMs) and state-of-the-art VG architectures. Furthermore, we propose SV-CoT, a novel baseline framework that reformulates grounding as a structured inference process, synergizing gestural and linguistic cues through a Visual Chain-of-Thought paradigm. Extensive experiments demonstrate that SV-CoT achieves an $\textbf{11.7\%}$ absolute improvement over existing methods, effectively mitigating semantic ambiguity and advancing the capability of agents to comprehend multimodal physical intents. The dataset and code will be made publicly available.

Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理