Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

📄 arXiv: 2603.12126v1 📥 PDF

作者: Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll

分类: cs.CV, cs.LG

发布日期: 2026-03-12


💡 一句话要点

Hoi3DGen:生成高质量3D人-物交互模型,显著提升文本一致性和模型质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D人-物交互生成 文本到3D 多模态学习 大型语言模型 数据集构建 神经辐射场 扩散模型

📋 核心要点

  1. 现有3D人-物交互生成方法依赖文本到图像模型的score distillation,但受限于数据质量和模型偏差,难以保证生成结果的真实性和文本一致性。
  2. Hoi3DGen的核心在于利用多模态大型语言模型,构建高质量的3D人-物交互数据集,并以此为基础训练文本到3D生成模型。
  3. 实验结果表明,Hoi3DGen在文本一致性和3D模型质量方面均显著优于现有方法,并在多种类别和交互类型上表现出良好的泛化能力。

📝 摘要(中文)

本文提出Hoi3DGen框架,旨在从文本描述生成高质量的3D人-物交互模型,这对于AR、XR和游戏等应用至关重要。现有方法通常依赖于文本到图像模型的score distillation,但由于高质量交互数据的稀缺,结果常出现Janus问题,且未能忠实遵循文本提示。Hoi3DGen通过利用多模态大型语言模型,首先构建了逼真且高质量的交互数据集,然后创建了一个完整的文本到3D生成流程,在交互保真度方面实现了数量级的提升。实验表明,该方法在文本一致性方面超越基线方法4-15倍,在3D模型质量方面超越3-7倍,同时保持了高质量的3D生成效果,并展现出对不同类别和交互类型的强大泛化能力。

🔬 方法详解

问题定义:现有方法在从文本生成3D人-物交互模型时,面临着数据稀缺和质量不高的问题。具体来说,现有方法依赖于文本到图像模型的score distillation,但这些模型并未针对人-物交互进行优化,导致生成的3D模型在交互的真实性和文本一致性方面表现不佳,容易出现Janus问题等。

核心思路:Hoi3DGen的核心思路是首先解决数据问题,即构建一个高质量的3D人-物交互数据集。然后,利用该数据集训练一个文本到3D的生成模型,从而能够更准确地根据文本描述生成逼真且符合要求的3D交互模型。通过高质量的数据驱动,避免了现有方法中因数据偏差导致的各种问题。

技术框架:Hoi3DGen的整体框架包含两个主要阶段:1) 数据集构建阶段:利用多模态大型语言模型,从文本描述中提取关键信息,并结合现有的3D人体和物体模型,生成高质量的3D人-物交互数据。该阶段的关键在于如何利用大型语言模型生成合理且真实的交互姿态和场景。2) 文本到3D生成阶段:利用构建的数据集训练一个文本到3D的生成模型。该模型以文本描述作为输入,输出对应的3D人-物交互模型。具体实现上,可以使用各种现有的3D生成模型,如扩散模型或神经辐射场等。

关键创新:Hoi3DGen最重要的创新在于其数据驱动的方法。通过构建高质量的3D人-物交互数据集,解决了现有方法中数据稀缺和质量不高的问题。这使得模型能够更好地学习人-物交互的规律,从而生成更真实、更符合文本描述的3D模型。与现有方法相比,Hoi3DGen避免了对文本到图像模型的过度依赖,从而减少了模型偏差。

关键设计:在数据集构建阶段,论文可能采用了特定的提示工程(prompt engineering)技术,以指导大型语言模型生成更准确的交互描述。在文本到3D生成阶段,损失函数的设计可能考虑了文本一致性、3D模型质量和交互合理性等因素。具体的网络结构和参数设置未知,需要查阅论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Hoi3DGen在文本一致性和3D模型质量方面均取得了显著的提升。实验结果表明,Hoi3DGen在文本一致性方面超越基线方法4-15倍,在3D模型质量方面超越3-7倍。这些数据表明,Hoi3DGen能够更准确地根据文本描述生成3D人-物交互模型,并且生成的模型具有更高的真实感和细节。

🎯 应用场景

Hoi3DGen在AR、XR、游戏、虚拟现实内容创作等领域具有广泛的应用前景。它可以根据用户的文本描述,快速生成各种逼真的人-物交互场景,从而极大地提高内容创作的效率和质量。例如,在游戏开发中,开发者可以使用Hoi3DGen快速生成各种角色与环境的交互动画,从而节省大量的人工建模和动画制作时间。未来,该技术有望应用于智能家居、人机协作等领域,实现更自然、更智能的人机交互。

📄 摘要(原文)

Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.