InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing
作者: Jinlu Zhang, Yixin Chen, Zan Wang, Jie Yang, Yizhou Wang, Siyuan Huang
分类: cs.CV
发布日期: 2025-05-30
备注: CVPR 2025
💡 一句话要点
InteractAnything:通过LLM反馈和物体可供性解析实现零样本人-物交互合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人-物交互 零样本学习 大型语言模型 扩散模型 3D生成
📋 核心要点
- 现有方法在从文本生成新的人-物交互(HOI)方面存在困难,尤其是在开放集物体上,缺乏精确的人-物关系推理。
- 利用大型语言模型(LLM)进行人-物关系推理,并结合预训练的2D扩散模型进行物体可供性解析,生成初始人体姿势。
- 通过从LLM中提取反馈,并进行详细优化,强制3D物体与人体部位产生真实的3D接触,从而生成精细自然的交互。
📝 摘要(中文)
本文提出了一种新颖的零样本3D人-物交互(HOI)生成框架,无需在特定数据集上进行训练,而是利用大规模预训练模型的知识。该方法通过大型语言模型(LLM)推断人-物关系,以初始化物体属性并指导优化过程。利用预训练的2D图像扩散模型解析未见过的物体并提取接触点,避免了现有3D资产知识的限制。通过基于输入文本和物体几何体的多视角SDS采样生成初始人体姿势。最后,引入详细的优化过程,生成精细、精确和自然的交互,强制3D物体与相关身体部位(包括抓握中的手)之间产生真实的3D接触。这通过从LLM中提取人类水平的反馈来实现,以捕捉文本指令中详细的人-物关系。大量实验验证了该方法相对于现有工作的有效性,特别是在交互的精细度和处理开放集3D物体的能力方面。
🔬 方法详解
问题定义:现有方法在从文本描述生成3D人-物交互时,尤其是在处理未见过的物体时,面临着三个主要挑战:精确的人-物关系推理、任何物体的可供性解析以及符合描述和物体几何体的详细人体交互姿势合成。现有方法依赖于特定的数据集训练或已知的3D资产,泛化能力有限。
核心思路:论文的核心思路是利用大规模预训练模型(LLM和2D扩散模型)的知识,在没有特定数据集训练的情况下,实现零样本的人-物交互生成。通过LLM进行关系推理,2D扩散模型进行物体解析,并结合多视角SDS和详细优化,生成逼真的人-物交互。
技术框架:该框架包含以下几个主要模块:1) 人-物关系推理:使用LLM从文本描述中推断人-物关系,初始化物体属性并指导优化过程。2) 物体可供性解析:利用预训练的2D图像扩散模型解析未见过的物体,提取接触点。3) 初始人体姿势生成:通过基于输入文本和物体几何体的多视角SDS采样生成多个人体姿势假设。4) 详细优化:通过从LLM中提取反馈,强制3D物体与人体部位产生真实的3D接触,生成精细自然的交互。
关键创新:该方法最重要的创新点在于其零样本的生成能力,无需在特定数据集上进行训练。它通过结合LLM进行关系推理和2D扩散模型进行物体解析,克服了现有方法对特定数据集和3D资产的依赖。此外,利用LLM反馈进行详细优化,实现了更精细和自然的交互。
关键设计:关键设计包括:1) 使用LLM进行人-物关系推理,提取物体属性和交互方式。2) 使用预训练的2D扩散模型进行物体可供性解析,提取接触点。3) 使用多视角SDS进行初始人体姿势生成,采样多个假设。4) 使用LLM反馈进行详细优化,强制3D接触,并生成自然交互。具体的损失函数和网络结构细节在论文中未明确提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在生成精细的人-物交互方面优于现有方法,尤其是在处理开放集3D物体时。通过LLM反馈进行详细优化,能够生成更逼真的3D接触和自然交互。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、机器人仿真等领域,能够根据文本描述自动生成逼真的人-物交互场景,提高用户体验和内容创作效率。未来,该技术有望进一步扩展到更复杂的场景和交互类型,实现更智能、更自然的虚拟世界。
📄 摘要(原文)
Recent advances in 3D human-aware generation have made significant progress. However, existing methods still struggle with generating novel Human Object Interaction (HOI) from text, particularly for open-set objects. We identify three main challenges of this task: precise human-object relation reasoning, affordance parsing for any object, and detailed human interaction pose synthesis aligning description and object geometry. In this work, we propose a novel zero-shot 3D HOI generation framework without training on specific datasets, leveraging the knowledge from large-scale pre-trained models. Specifically, the human-object relations are inferred from large language models (LLMs) to initialize object properties and guide the optimization process. Then we utilize a pre-trained 2D image diffusion model to parse unseen objects and extract contact points, avoiding the limitations imposed by existing 3D asset knowledge. The initial human pose is generated by sampling multiple hypotheses through multi-view SDS based on the input text and object geometry. Finally, we introduce a detailed optimization to generate fine-grained, precise, and natural interaction, enforcing realistic 3D contact between the 3D object and the involved body parts, including hands in grasping. This is achieved by distilling human-level feedback from LLMs to capture detailed human-object relations from the text instruction. Extensive experiments validate the effectiveness of our approach compared to prior works, particularly in terms of the fine-grained nature of interactions and the ability to handle open-set 3D objects.