MeshUp: Multi-Target Mesh Deformation via Blended Score Distillation
作者: Hyunwoo Kim, Itai Lang, Noam Aigerman, Thibault Groueix, Vladimir G. Kim, Rana Hanocka
分类: cs.CV, cs.GR
发布日期: 2024-08-27 (更新: 2025-02-10)
备注: Project page: https://threedle.github.io/MeshUp
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
MeshUp:提出一种基于混合分数蒸馏的多目标网格形变方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 网格变形 多目标优化 扩散模型 分数蒸馏 3D建模
📋 核心要点
- 现有网格变形方法难以同时实现多个目标,且缺乏对目标区域的精细控制。
- MeshUp通过混合分数蒸馏(BSD)方法,在扩散模型的注意力层融合多个目标概念的激活,实现多目标形变。
- 实验结果表明,MeshUp能够有效地将网格变形为多个目标,并能精确控制每个目标的影响区域。
📝 摘要(中文)
本文提出MeshUp,一种将3D网格变形为多个目标概念的技术,并能直观地控制每个概念表达的区域。这些概念可以方便地定义为文本查询(例如“一只狗”和“一只乌龟”)或灵感图像,局部区域可以选择为网格上的任意数量的顶点。我们使用一种新颖的分数蒸馏方法(称为混合分数蒸馏(BSD))来有效地控制概念的影响并将它们混合在一起。BSD作用于扩散模型的去噪U-Net的每个注意力层,因为它提取每个目标的激活并将其注入到统一的去噪流程中,从中计算变形梯度。为了定位这些激活的表达,我们在网格表面上创建一个概率感兴趣区域(ROI)图,并将其转换为3D一致的掩码,用于控制这些激活的表达。我们通过实验证明了BSD的有效性,并表明它可以将各种网格变形为多个目标。
🔬 方法详解
问题定义:现有的网格变形方法通常只能针对单一目标进行优化,难以同时实现多个目标。此外,对目标影响区域的控制也较为粗糙,无法实现精细化的局部形变。这限制了网格变形在复杂场景下的应用。
核心思路:MeshUp的核心思路是利用扩散模型的强大生成能力,将多个目标概念融入到网格变形的过程中。通过混合分数蒸馏(BSD),将每个目标的激活信息提取出来,并注入到统一的去噪流程中,从而实现多目标驱动的网格形变。同时,利用概率ROI图和3D一致性掩码,精确控制每个目标的影响区域。
技术框架:MeshUp的整体框架包括以下几个主要步骤:1) 定义多个目标概念,可以是文本查询或图像;2) 在网格表面创建概率ROI图,用于指定每个目标的影响区域;3) 利用扩散模型生成每个目标的激活信息;4) 通过BSD将多个目标的激活信息融合到统一的去噪流程中;5) 从去噪流程中计算变形梯度,并更新网格顶点的位置。
关键创新:MeshUp的关键创新在于混合分数蒸馏(BSD)方法。BSD能够有效地提取和融合多个目标的激活信息,并将其注入到扩散模型的去噪U-Net中。与传统的优化方法相比,BSD能够更好地利用扩散模型的先验知识,从而生成更自然、更符合目标概念的网格形变。此外,概率ROI图和3D一致性掩码的设计,实现了对目标影响区域的精细控制。
关键设计:BSD的关键设计在于对扩散模型U-Net的注意力层进行操作。通过提取每个注意力层的激活信息,并根据ROI图和3D一致性掩码进行加权平均,从而实现多目标激活的融合。损失函数主要包括两部分:一是扩散模型的去噪损失,用于保证生成结果的质量;二是正则化损失,用于约束网格的平滑性。
🖼️ 关键图片
📊 实验亮点
MeshUp通过实验验证了其有效性,能够将各种网格变形为多个目标,并精确控制每个目标的影响区域。与现有的网格变形方法相比,MeshUp能够生成更自然、更符合目标概念的形变结果。项目主页提供了详细的实验结果和代码。
🎯 应用场景
MeshUp具有广泛的应用前景,例如在游戏开发中,可以快速生成具有特定特征的角色模型;在电影制作中,可以用于创建逼真的特效;在工业设计中,可以用于优化产品外观。该技术还可以应用于3D内容创作、虚拟现实和增强现实等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
We propose MeshUp, a technique that deforms a 3D mesh towards multiple target concepts, and intuitively controls the region where each concept is expressed. Conveniently, the concepts can be defined as either text queries, e.g., "a dog" and "a turtle," or inspirational images, and the local regions can be selected as any number of vertices on the mesh. We can effectively control the influence of the concepts and mix them together using a novel score distillation approach, referred to as the Blended Score Distillation (BSD). BSD operates on each attention layer of the denoising U-Net of a diffusion model as it extracts and injects the per-objective activations into a unified denoising pipeline from which the deformation gradients are calculated. To localize the expression of these activations, we create a probabilistic Region of Interest (ROI) map on the surface of the mesh, and turn it into 3D-consistent masks that we use to control the expression of these activations. We demonstrate the effectiveness of BSD empirically and show that it can deform various meshes towards multiple objectives. Our project page is at https://threedle.github.io/MeshUp.