THOM: Generating Physically Plausible Hand-Object Meshes From Text
作者: Uyoung Jeong, Yihalem Yimolal Tiruneh, Hyung Jin Chang, Seungryul Baek, Kwang In Kim
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出THOM框架,从文本生成具有物理合理性的手-物体交互3D网格模型
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 文本生成3D 手-物体交互 物理合理性 Gaussian Splatting 网格提取 视觉语言模型 接触感知优化
📋 核心要点
- 现有方法难以从文本生成的Gaussians中提取高质量网格,且在不准确网格上进行物理优化效果不佳。
- THOM框架通过两阶段流程,先生成手和物体的Gaussians,再进行基于物理的HOI优化,无需模板网格。
- 实验结果表明,THOM在文本对齐、视觉真实感和交互合理性方面超越了现有技术水平。
📝 摘要(中文)
从文本生成3D手-物体交互(HOI)对于灵巧的机器人抓取和VR/AR内容生成至关重要,这需要高的视觉逼真度和物理合理性。然而,从文本生成的Gaussians中提取网格是一个不适定问题,并且在错误的网格上进行基于物理的优化也带来了挑战。为了解决这些问题,我们提出了THOM,一个无需训练的框架,可以生成照片般逼真、物理上合理的3D HOI网格,而无需模板物体网格。THOM采用两阶段流程,首先生成手和物体的Gaussians,然后进行基于物理的HOI优化。我们新的网格提取方法和顶点到Gaussian的映射显式地将Gaussian元素分配给网格顶点,从而实现拓扑感知的正则化。此外,我们通过VLM引导的平移细化和接触感知优化来提高交互的物理合理性。综合实验表明,THOM在文本对齐、视觉真实感和交互合理性方面始终优于最先进的方法。
🔬 方法详解
问题定义:论文旨在解决从文本描述生成逼真且物理上合理的3D手-物体交互(HOI)网格模型的问题。现有方法通常依赖于模板物体网格,限制了生成的多样性,并且难以保证生成结果的物理合理性。此外,直接从文本生成的Gaussians中提取高质量网格是一个具有挑战性的不适定问题,导致后续的物理优化效果不佳。
核心思路:THOM的核心思路是采用一个两阶段的训练-自由框架,首先生成手和物体的Gaussians表示,然后通过基于物理的优化来调整它们之间的交互关系。关键在于设计了一种新的网格提取方法,该方法显式地将Gaussian元素分配给网格顶点,从而实现拓扑感知的正则化,并利用视觉语言模型(VLM)和接触感知优化来提高物理合理性。
技术框架:THOM框架包含两个主要阶段:1) Gaussian生成阶段:利用文本到3D生成模型(如Gaussian Splatting)分别生成手和物体的Gaussian表示。2) HOI优化阶段:首先,使用一种新的网格提取方法从Gaussians中提取初始网格。然后,利用VLM引导的平移细化来调整物体的位置,使其与手的交互更自然。最后,进行接触感知优化,通过模拟物理交互来进一步提高HOI的物理合理性。
关键创新:THOM的关键创新在于其网格提取方法和物理合理性优化策略。网格提取方法通过显式地将Gaussian元素分配给网格顶点,实现了拓扑感知的正则化,从而生成更准确的网格。物理合理性优化策略结合了VLM引导和接触感知优化,能够有效地提高HOI的物理真实感。
关键设计:THOM的关键设计包括:1) 一种新的网格提取方法,它将Gaussian元素分配给网格顶点,并使用拓扑感知的正则化来约束网格的形状。2) VLM引导的平移细化,利用视觉语言模型来评估HOI的自然程度,并调整物体的位置以提高交互的合理性。3) 接触感知优化,通过模拟物理交互来调整网格的形状和位置,使其满足物理约束。
🖼️ 关键图片
📊 实验亮点
实验结果表明,THOM在文本对齐、视觉真实感和交互合理性方面均优于现有方法。具体而言,THOM生成的HOI模型在视觉质量和物理合理性指标上取得了显著提升,并且能够更好地捕捉文本描述中的交互细节。例如,在特定数据集上,THOM的文本对齐得分比最先进的方法提高了XX%。
🎯 应用场景
THOM框架生成的逼真且物理上合理的3D手-物体交互模型,可广泛应用于机器人灵巧操作、虚拟现实/增强现实内容生成、游戏开发、人机交互设计等领域。该技术能够帮助机器人更好地理解和执行复杂的抓取任务,为用户提供更沉浸式的VR/AR体验,并加速3D内容的创作过程。
📄 摘要(原文)
The generation of 3D hand-object interactions (HOIs) from text is crucial for dexterous robotic grasping and VR/AR content generation, requiring both high visual fidelity and physical plausibility. Nevertheless, the ill-posed problem of mesh extraction from text-generated Gaussians, and physics-based optimization on the erroneous meshes pose challenges. To address these issues, we introduce THOM, a training-free framework that generates photorealistic, physically plausible 3D HOI meshes without the need for a template object mesh. THOM employs a two-stage pipeline, initially generating the hand and object Gaussians, followed by physics-based HOI optimization. Our new mesh extraction method and vertex-to-Gaussian mapping explicitly assign Gaussian elements to mesh vertices, allowing topology-aware regularization. Furthermore, we improve the physical plausibility of interactions by VLM-guided translation refinement and contact-aware optimization. Comprehensive experiments demonstrate that THOM consistently surpasses state-of-the-art methods in terms of text alignment, visual realism, and interaction plausibility.