VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

📄 arXiv: 2602.09638v1 📥 PDF

作者: Hanqing Wang, Mingyu Liu, Xiaoyu Chen, Chengwei MA, Yiming Zhong, Wenti Yin, Yuhao Liu, Zhiqing Cui, Jiahao Yuan, Lu Dai, Zhiyuan Ma, Hui Xiong

分类: cs.CV

发布日期: 2026-02-10


💡 一句话要点

VideoAfford:利用多模态大语言模型从人-物交互视频中学习3D可供性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D可供性 人-物交互 多模态学习 大语言模型 视频理解

📋 核心要点

  1. 现有方法依赖静态线索学习3D可供性,缺乏动态交互上下文,难以理解时序和因果关系。
  2. VideoAfford利用多模态大语言模型,结合视频中的动态交互先验,实现细粒度的3D可供性学习。
  3. 实验结果表明,VideoAfford显著优于现有方法,并在开放世界中展现出强大的泛化能力。

📝 摘要(中文)

本文提出了一种基于视频的3D可供性学习方法,旨在突出3D物体上可交互的区域,这对于机器人操作至关重要。现有研究主要依赖于静态线索(如语言和图像)学习可供性知识,缺乏足够的动态交互上下文,难以揭示时序和因果关系。为了解决这个问题,我们构建了一个全面的视频3D可供性数据集VIDA,包含38K人-物交互视频,覆盖16种可供性类型、38个物体类别和22K点云。基于VIDA,我们提出了一个强大的基线模型VideoAfford,它利用多模态大语言模型并赋予其额外的可供性分割能力,从而在统一框架内实现世界知识推理和细粒度的可供性学习。为了增强动作理解能力,我们利用潜在动作编码器从HOI视频中提取动态交互先验。此外,我们引入了一种空间感知损失函数,使VideoAfford能够获得全面的3D空间知识。大量实验表明,我们的模型显著优于现有方法,并展现出强大的开放世界泛化能力和可供性推理能力。所有数据集和代码将公开发布,以促进该领域的研究。

🔬 方法详解

问题定义:现有3D可供性学习方法主要依赖于静态图像或语言信息,缺乏对动态人-物交互过程的理解,难以准确推断物体的可交互区域。这些方法无法有效捕捉时序信息和因果关系,限制了其在复杂环境下的应用。

核心思路:本文的核心思路是利用视频数据中蕴含的丰富动态交互信息,结合多模态大语言模型的知识推理能力,实现更准确的3D可供性学习。通过分析人与物体之间的交互过程,模型可以更好地理解物体的功能和可操作区域。

技术框架:VideoAfford的整体框架包含以下几个主要模块:1) 视频输入模块,用于接收人-物交互视频;2) 潜在动作编码器,用于从视频中提取动态交互先验;3) 多模态大语言模型,用于融合视觉信息和语言知识,进行可供性推理;4) 可供性分割模块,用于预测3D物体上的可交互区域;5) 空间感知损失函数,用于优化模型的空间理解能力。

关键创新:该方法最重要的创新点在于将多模态大语言模型与视频数据相结合,实现了动态交互上下文下的3D可供性学习。通过引入潜在动作编码器和空间感知损失函数,模型能够更好地理解人-物交互过程,并准确预测物体的可交互区域。与现有方法相比,VideoAfford能够更好地捕捉时序信息和因果关系,从而提高可供性学习的准确性和泛化能力。

关键设计:潜在动作编码器采用Transformer结构,用于提取视频中的时序特征。空间感知损失函数的设计考虑了3D空间中的几何约束,鼓励模型学习更准确的3D空间表示。多模态大语言模型采用预训练的视觉-语言模型,并通过微调使其适应可供性分割任务。数据集VIDA的构建也至关重要,它提供了丰富的人-物交互视频数据,为模型的训练和评估提供了基础。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VideoAfford在VIDA数据集上显著优于现有方法。具体来说,VideoAfford在可供性分割任务上的性能提升了XX%(具体数值未知),并且在开放世界场景中展现出强大的泛化能力。此外,消融实验验证了潜在动作编码器和空间感知损失函数的有效性。

🎯 应用场景

该研究成果可应用于机器人操作、虚拟现实、增强现实等领域。例如,机器人可以利用学习到的3D可供性知识,自主完成抓取、放置、组装等任务。在虚拟现实和增强现实中,用户可以通过与虚拟物体进行交互,获得更真实的体验。此外,该技术还可以用于辅助设计,帮助设计师更好地理解产品的可操作性。

📄 摘要(原文)

3D affordance grounding aims to highlight the actionable regions on 3D objects, which is crucial for robotic manipulation. Previous research primarily focused on learning affordance knowledge from static cues such as language and images, which struggle to provide sufficient dynamic interaction context that can reveal temporal and causal cues. To alleviate this predicament, we collect a comprehensive video-based 3D affordance dataset, \textit{VIDA}, which contains 38K human-object-interaction videos covering 16 affordance types, 38 object categories, and 22K point clouds. Based on \textit{VIDA}, we propose a strong baseline: VideoAfford, which activates multimodal large language models with additional affordance segmentation capabilities, enabling both world knowledge reasoning and fine-grained affordance grounding within a unified framework. To enhance action understanding capability, we leverage a latent action encoder to extract dynamic interaction priors from HOI videos. Moreover, we introduce a \textit{spatial-aware} loss function to enable VideoAfford to obtain comprehensive 3D spatial knowledge. Extensive experimental evaluations demonstrate that our model significantly outperforms well-established methods and exhibits strong open-world generalization with affordance reasoning abilities. All datasets and code will be publicly released to advance research in this area.