Visual Intention Grounding for Egocentric Assistants

📄 arXiv: 2504.13621v1 📥 PDF

作者: Pengzhan Sun, Junbin Xiao, Tze Ho Elden Tse, Yicong Li, Arjun Akula, Angela Yao

分类: cs.CV

发布日期: 2025-04-18


💡 一句话要点

提出EgoIntention数据集和Reason-to-Ground方法,解决以自我为中心视角下的意图驱动视觉定位问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 意图理解 自我中心视角 多模态学习 指令调优

📋 核心要点

  1. 现有视觉定位方法主要针对第三人称视角和具名对象查询,无法有效处理以自我为中心视角下基于意图的视觉定位。
  2. 论文提出EgoIntention数据集和Reason-to-Ground (RoG) 指令调优方法,通过意图推理和对象定位的链式机制,实现混合训练。
  3. 实验表明,RoG在EgoIntention数据集上显著优于现有方法,同时保持或略微提高了在传统视觉定位任务上的性能。

📝 摘要(中文)

视觉定位旨在将文本描述与图像中的对象关联起来。传统方法主要针对第三人称视角的图像输入和具名对象查询。然而,在AI助手等应用中,视角发生了转变——输入是以自我为中心的,并且对象可能通过需求和意图被隐式地提及。为了弥合这一差距,我们引入了EgoIntention,这是第一个用于以自我为中心的视觉意图定位的数据集。EgoIntention挑战多模态LLM去1)理解并忽略不相关的上下文对象,以及2)推理不常见的对象功能。基准测试结果表明,当前的模型错误地识别了上下文对象,并且缺乏对以自我为中心视角下的可供性的理解。我们还提出了Reason-to-Ground (RoG) 指令调优;它能够通过链式的意图推理和对象定位机制,使用普通描述和以自我为中心的意图进行混合训练。RoG在EgoIntention上显著优于朴素微调和混合训练,同时保持或略微提高了朴素描述定位的性能。这一进展实现了对以自我为中心和非以自我为中心的视觉输入的统一视觉定位,同时处理显式对象查询和隐式人类意图。

🔬 方法详解

问题定义:论文旨在解决以自我为中心视角下,根据人类意图定位图像中相关对象的问题。现有方法主要针对第三人称视角和显式对象查询,无法有效处理以自我为中心视角下,通过隐式意图表达的需求,并且缺乏对对象功能(可供性)的理解。

核心思路:论文的核心思路是通过引入EgoIntention数据集,并提出Reason-to-Ground (RoG) 指令调优方法,使模型能够理解人类意图,并将其与以自我为中心视角下的相关对象关联起来。RoG方法通过链式的意图推理和对象定位机制,实现混合训练,从而提高模型在EgoIntention数据集上的性能。

技术框架:RoG方法包含两个主要阶段:意图推理和对象定位。在意图推理阶段,模型首先根据输入的以自我为中心的意图描述,推理出用户的具体需求。然后,在对象定位阶段,模型根据推理出的需求,在图像中定位相关的对象。这两个阶段通过链式的方式连接起来,形成一个完整的意图驱动的视觉定位流程。

关键创新:论文的关键创新在于提出了Reason-to-Ground (RoG) 指令调优方法,该方法能够通过链式的意图推理和对象定位机制,实现混合训练。与现有方法相比,RoG方法能够更好地理解人类意图,并将其与以自我为中心视角下的相关对象关联起来。此外,EgoIntention数据集的构建也为该领域的研究提供了新的资源。

关键设计:RoG方法的关键设计包括:1)使用指令调优的方式,使模型能够更好地理解人类意图;2)采用链式的意图推理和对象定位机制,将意图推理和对象定位两个阶段连接起来;3)使用混合训练的方式,同时利用普通描述和以自我为中心的意图进行训练,从而提高模型的泛化能力。具体的损失函数和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Reason-to-Ground (RoG) 指令调优方法在EgoIntention数据集上取得了显著的性能提升,优于朴素微调和混合训练。同时,RoG方法在保持或略微提高朴素描述定位性能的同时,实现了对以自我为中心和非以自我为中心的视觉输入的统一视觉定位。

🎯 应用场景

该研究成果可应用于智能助手、机器人导航、虚拟现实等领域。例如,智能助手可以根据用户的意图,在以自我为中心的视角下,帮助用户找到所需的物品或完成特定的任务。机器人可以根据人类的指令,在复杂的环境中进行导航和操作。虚拟现实应用可以提供更自然和沉浸式的用户体验。

📄 摘要(原文)

Visual grounding associates textual descriptions with objects in an image. Conventional methods target third-person image inputs and named object queries. In applications such as AI assistants, the perspective shifts -- inputs are egocentric, and objects may be referred to implicitly through needs and intentions. To bridge this gap, we introduce EgoIntention, the first dataset for egocentric visual intention grounding. EgoIntention challenges multimodal LLMs to 1) understand and ignore unintended contextual objects and 2) reason about uncommon object functionalities. Benchmark results show that current models misidentify context objects and lack affordance understanding in egocentric views. We also propose Reason-to-Ground (RoG) instruction tuning; it enables hybrid training with normal descriptions and egocentric intentions with a chained intention reasoning and object grounding mechanism. RoG significantly outperforms naive finetuning and hybrid training on EgoIntention, while maintaining or slightly improving naive description grounding. This advancement enables unified visual grounding for egocentric and exocentric visual inputs while handling explicit object queries and implicit human intentions.