THOM: Generating Physically Plausible Hand-Object Meshes From Text

📄 arXiv: 2604.02736 📥 PDF

作者: Uyoung Jeong, Yihalem Yimolal Tiruneh, Hyung Jin Chang, Seungryul Baek, Kwang In Kim

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出THOM框架,从文本生成具有物理合理性的手-物体交互3D网格模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 文本生成 3D手-物体交互 物理合理性 网格生成 高斯表示

📋 核心要点

  1. 现有方法难以从文本生成的场景中提取高质量的3D手-物体交互网格,且缺乏物理合理性。
  2. THOM框架通过两阶段流程,先生成手和物体的Gaussians,再进行基于物理的HOI优化,无需训练。
  3. 实验结果表明,THOM在文本对齐、视觉真实感和交互合理性方面超越了现有技术水平。

📝 摘要(中文)

从文本生成3D手-物体交互(HOI)对于灵巧的机器人抓取和VR/AR内容生成至关重要,这需要高视觉保真度和物理合理性。然而,从文本生成的Gaussians中提取网格这一不适定问题,以及在错误网格上进行基于物理的优化带来了挑战。为了解决这些问题,我们提出了THOM,一个无需训练的框架,可以生成逼真且物理上合理的3D HOI网格,而无需模板对象网格。THOM采用两阶段流程,首先生成手和物体的Gaussians,然后进行基于物理的HOI优化。我们新的网格提取方法和顶点到Gaussian的映射显式地将Gaussian元素分配给网格顶点,从而实现拓扑感知正则化。此外,我们通过VLM引导的平移细化和接触感知优化来提高交互的物理合理性。综合实验表明,THOM在文本对齐、视觉真实感和交互合理性方面始终优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决从文本描述中生成具有物理合理性的3D手-物体交互(HOI)网格模型的问题。现有方法通常难以从文本生成的场景表示(例如Gaussians)中提取高质量的网格,并且生成的网格往往缺乏物理上的合理性,导致交互不自然或不真实。这些问题限制了HOI在机器人抓取、VR/AR内容生成等领域的应用。

核心思路:论文的核心思路是通过一个两阶段的框架,首先生成手和物体的Gaussians表示,然后利用基于物理的优化方法来提高HOI的物理合理性。关键在于设计一种新的网格提取方法,该方法能够显式地将Gaussian元素分配给网格顶点,从而实现拓扑感知正则化,并结合VLM引导的平移细化和接触感知优化,从而生成更逼真和物理上合理的交互。

技术框架:THOM框架包含两个主要阶段:1) Gaussian生成阶段:利用文本到3D生成模型(例如,Text-to-3D Gaussian Splatting)生成手和物体的Gaussian表示。2) 基于物理的HOI优化阶段:首先,使用论文提出的新网格提取方法从Gaussians中提取初始网格。然后,通过VLM引导的平移细化来调整物体的位置,使其更符合文本描述。最后,进行接触感知优化,以确保手和物体之间的交互在物理上是合理的。

关键创新:论文的关键创新在于提出了一种新的网格提取方法,该方法显式地将Gaussian元素分配给网格顶点,从而实现拓扑感知正则化。这种方法能够生成更平滑、更规则的网格,从而提高后续物理优化的效果。此外,论文还引入了VLM引导的平移细化和接触感知优化,进一步提高了HOI的物理合理性。与现有方法相比,THOM无需模板对象网格,并且能够生成更逼真和物理上合理的HOI。

关键设计:网格提取方法通过最小化顶点与其对应Gaussian元素之间的距离来建立映射关系。拓扑感知正则化通过约束相邻顶点之间的距离和角度来保持网格的平滑性和规则性。VLM引导的平移细化利用视觉语言模型来评估物体位置的合理性,并调整物体的位置以最大化文本描述与场景之间的对齐程度。接触感知优化通过模拟手和物体之间的物理交互,并调整网格的形状和位置,以最小化穿透和碰撞。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,THOM在文本对齐、视觉真实感和交互合理性方面均优于现有方法。具体而言,THOM在文本对齐指标(例如CLIP score)上取得了显著提升,并且生成的HOI在物理合理性方面也得到了明显改善。用户研究表明,THOM生成的HOI在视觉真实感和交互自然度方面更受用户青睐。此外,THOM无需模板对象网格,具有更强的通用性和灵活性。

🎯 应用场景

该研究成果可广泛应用于机器人灵巧操作、虚拟现实/增强现实内容生成、游戏开发等领域。例如,可以利用该技术生成逼真的虚拟手部交互场景,用于VR/AR游戏或训练模拟。在机器人领域,可以帮助机器人理解并执行复杂的抓取任务,提高机器人的操作能力和智能化水平。此外,该技术还可以用于生成各种手部相关的3D内容,例如手部动画、手部模型等。

📄 摘要(原文)

The generation of 3D hand-object interactions (HOIs) from text is crucial for dexterous robotic grasping and VR/AR content generation, requiring both high visual fidelity and physical plausibility. Nevertheless, the ill-posed problem of mesh extraction from text-generated Gaussians, and physics-based optimization on the erroneous meshes pose challenges. To address these issues, we introduce THOM, a training-free framework that generates photorealistic, physically plausible 3D HOI meshes without the need for a template object mesh. THOM employs a two-stage pipeline, initially generating the hand and object Gaussians, followed by physics-based HOI optimization. Our new mesh extraction method and vertex-to-Gaussian mapping explicitly assign Gaussian elements to mesh vertices, allowing topology-aware regularization. Furthermore, we improve the physical plausibility of interactions by VLM-guided translation refinement and contact-aware optimization. Comprehensive experiments demonstrate that THOM consistently surpasses state-of-the-art methods in terms of text alignment, visual realism, and interaction plausibility.