IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models
作者: Hamed Rahimi, Clemence Grislain, Adrien Jacquet Cretides, Olivier Sigaud, Mohamed Chetouani
分类: cs.HC, cs.AI, cs.MM
发布日期: 2026-04-27
💡 一句话要点
IntentVLM:利用视频-语言模型和前向-逆向建模实现开放词汇意图识别
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 意图识别 视频-语言模型 前向-逆向建模 多模态学习 人机交互
📋 核心要点
- 现有方法在多模态人机交互中,难以有效整合文本和视觉信息,导致意图理解的准确性不足。
- IntentVLM采用前向-逆向建模思想,先生成目标候选,再通过结构化推理选择,降低了推理过程中的幻觉。
- 在IntentQA和Inst-IT Bench数据集上,IntentVLM的准确率高达80%,显著超越了基线方法,并达到了人类水平。
📝 摘要(中文)
为了提高人机交互的有效性,社交机器人需要通过鲁棒的意图理解来准确推断人类的目标。在多模态环境中,这是一个特别关键的挑战,因为智能体必须整合包括文本和视觉线索在内的异构信号,以形成对用户意图的连贯解释。本文提出了IntentVLM,这是一种新颖的两阶段视频-语言框架,专为开放词汇人类意图识别而设计。该方法受到认知科学中前向-逆向建模的启发,通过生成目标候选,然后通过选择进行结构化推理来分解意图理解,从而有效地减少了潜在推理中的幻觉。在IntentQA和Inst-IT Bench数据集上的评估表明,IntentVLM达到了最先进的结果,准确率高达80%,显著超过了基线性能30%,并与人类性能相匹配。我们的研究结果表明,这种结构化推理方法增强了开放词汇意图理解,而不会发生灾难性遗忘,为以人为中心的机器人技术提供了强大的基础。
🔬 方法详解
问题定义:论文旨在解决开放词汇场景下,机器人准确理解人类意图的问题。现有方法在处理多模态数据时,容易产生幻觉,导致意图识别的准确率不高,尤其是在词汇不受限的情况下,问题更加突出。
核心思路:论文的核心思路是借鉴认知科学中的前向-逆向建模。前向建模用于生成可能的意图候选,逆向建模则用于评估这些候选意图与观察到的视频和文本信息的一致性。通过这种方式,可以有效地约束搜索空间,减少不合理的意图推断,从而提高意图识别的准确性。
技术框架:IntentVLM是一个两阶段的视频-语言框架。第一阶段是目标候选生成阶段,利用视频-语言模型(VLM)生成多个可能的意图候选。第二阶段是结构化推理阶段,通过一个选择机制,评估每个候选意图与输入视频和文本的一致性,选择最合理的意图作为最终的识别结果。整个框架利用VLM的强大表征能力,结合结构化推理,实现了更准确的意图理解。
关键创新:该论文的关键创新在于将前向-逆向建模的思想引入到视频-语言意图识别任务中。与传统的端到端方法不同,IntentVLM通过显式地生成和评估意图候选,增强了模型的可解释性和鲁棒性。此外,该方法在开放词汇场景下表现出色,表明其具有良好的泛化能力。
关键设计:IntentVLM的具体实现细节包括:使用预训练的视频-语言模型作为基础模型,例如CLIP或ALIGN。目标候选生成阶段可以使用多种策略,例如基于文本描述生成图像,或者基于图像生成文本描述。结构化推理阶段可以使用交叉注意力机制来评估视频和文本信息与候选意图的一致性。损失函数可以包括交叉熵损失和对比学习损失,以提高模型的判别能力。
🖼️ 关键图片
📊 实验亮点
IntentVLM在IntentQA和Inst-IT Bench数据集上取得了显著的性能提升,准确率高达80%,超过了现有基线方法30%。这一结果表明,IntentVLM在开放词汇意图识别方面具有强大的竞争力,并且能够有效地解决多模态数据带来的挑战。该模型在性能上甚至可以与人类水平相媲美。
🎯 应用场景
IntentVLM在人机交互、智能家居、辅助机器人等领域具有广泛的应用前景。例如,它可以帮助机器人更好地理解用户的指令和行为,从而提供更智能、更个性化的服务。此外,该技术还可以应用于智能监控和安全领域,用于识别异常行为和潜在威胁。
📄 摘要(原文)
Improving the effectiveness of human-robot interaction requires social robots to accurately infer human goals through robust intention understanding. This challenge is particularly critical in multimodal settings, where agents must integrate heterogeneous signals including text, visual cues to form a coherent interpretation of user intent. This paper presents IntentVLM, a novel two-stage video-language framework designed for open-vocabulary human intention recognition. The approach is inspired by forward-inverse modeling in cognitive science by decomposing intention understanding into goal candidate generation followed by structured inference through selection, effectively reducing hallucinations in latent reasoning. Evaluated on the IntentQA and Inst-IT Bench datasets, IntentVLM achieves state-of-the-art results with up to 80% accuracy, notably surpassing the baseline performance by 30% and matches human performance. Our findings demonstrate that this structured reasoning approach enhances open-vocabulary intention understanding without catastrophic forgetting, offering a robust foundation for human-centered robotics.