Primitive-based 3D Human-Object Interaction Modelling and Programming
作者: Siqi Liu, Yong-Lu Li, Zhou Fang, Xinpeng Liu, Yang You, Cewu Lu
分类: cs.CV
发布日期: 2023-12-17
备注: AAAI2024
💡 一句话要点
提出基于几何图元的3D人-物交互建模与编程方法
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 3D人-物交互 几何图元 超二次曲面 单视图重建 数据集 人工智能 计算机视觉
📋 核心要点
- 现有方法依赖参数化或CAD模型表示人和物体,难以有效学习人和物体间的交互信息。
- 论文提出基于超二次曲面图元的统一表示方法,将人和物体都视为图元的组合。
- 构建了新的3D HAOI数据集,并提出了基于单视图的3D HAOI重建基线。
📝 摘要(中文)
本文提出了一种新颖的基于3D几何图元的语言,用于编码人和可活动物体之间的交互(HAOI),旨在更深入地理解人类活动。与以往使用参数化和CAD模型表示人和物体的工作不同,本文将人和物体都视为图元的组合,从而实现人和不同物体类别之间有限3D数据的互信息学习。选择超二次曲面作为图元表示,兼顾了表达的简洁性和信息的丰富性。为了有效嵌入HAOI,构建了一个新的3D HAOI基准,包含图元及其图像,并提出了一个任务,要求机器从图像中使用图元恢复3D HAOI。此外,提出了一个基于单视图的3D HAOI重建基线。该基于图元的3D HAOI表示将为3D HAOI研究铺平道路。
🔬 方法详解
问题定义:现有方法在3D人-物交互建模中,通常使用参数化模型(如SMPL人体模型)或CAD模型来表示人和物体。这些方法存在异构性,难以直接学习人和物体之间的交互信息,尤其是在3D数据有限的情况下。此外,如何有效地将人-物交互嵌入到机器可理解的表示中也是一个挑战。
核心思路:论文的核心思路是将人和物体都表示为3D几何图元的组合,从而实现统一的表示。这种统一的表示使得机器可以更容易地学习人和物体之间的关系,并利用有限的3D数据进行泛化。选择超二次曲面作为图元,因为它既能简洁地表达形状,又能包含丰富的几何信息。
技术框架:整体框架包含以下几个关键部分:1) 数据集构建:构建包含3D人-物交互场景的数据集,其中人和物体都用超二次曲面图元进行标注。2) 单视图3D重建:设计一个神经网络,输入单张图像,输出3D人-物交互场景的图元表示。3) 损失函数设计:设计合适的损失函数,鼓励网络学习准确的图元形状和位置,以及人和物体之间的交互关系。
关键创新:最重要的创新在于使用统一的图元表示来建模人和物体,打破了传统方法的异构性。这种表示方法使得机器可以更容易地学习人和物体之间的交互信息,并利用有限的3D数据进行泛化。此外,构建的3D HAOI数据集也为该领域的研究提供了新的资源。
关键设计:论文选择超二次曲面作为图元表示,其参数包括形状参数、位置参数和方向参数。网络结构方面,可以使用编码器-解码器结构,编码器提取图像特征,解码器预测图元的参数。损失函数可以包括图元形状损失、位置损失和交互损失。具体的参数设置和网络结构需要根据实际情况进行调整。
📊 实验亮点
论文构建了一个新的3D HAOI数据集,并提出了一个基于单视图的3D HAOI重建基线。虽然论文中没有给出具体的性能数据,但该基线的提出为后续研究提供了一个起点。该数据集和基线的发布将促进3D人-物交互领域的研究。
🎯 应用场景
该研究成果可应用于机器人操作、虚拟现实、增强现实等领域。例如,机器人可以利用该方法理解人类的意图,从而更好地与人类进行协作。在虚拟现实和增强现实中,可以利用该方法创建更逼真的人-物交互场景,提升用户体验。此外,该方法还可以用于动作捕捉和动画制作等领域。
📄 摘要(原文)
Embedding Human and Articulated Object Interaction (HAOI) in 3D is an important direction for a deeper human activity understanding. Different from previous works that use parametric and CAD models to represent humans and objects, in this work, we propose a novel 3D geometric primitive-based language to encode both humans and objects. Given our new paradigm, humans and objects are all compositions of primitives instead of heterogeneous entities. Thus, mutual information learning may be achieved between the limited 3D data of humans and different object categories. Moreover, considering the simplicity of the expression and the richness of the information it contains, we choose the superquadric as the primitive representation. To explore an effective embedding of HAOI for the machine, we build a new benchmark on 3D HAOI consisting of primitives together with their images and propose a task requiring machines to recover 3D HAOI using primitives from images. Moreover, we propose a baseline of single-view 3D reconstruction on HAOI. We believe this primitive-based 3D HAOI representation would pave the way for 3D HAOI studies. Our code and data are available at https://mvig-rhos.com/p3haoi.