CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

📄 arXiv: 2602.01844v1 📥 PDF

作者: Yuliang Zhan, Jian Li, Wenbing Huang, Wenbing Huang, Yang Liu, Hao Sun

分类: cs.CV, cs.AI

发布日期: 2026-02-02

备注: ICLR 2026

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

提出CloDS,解决未知条件下仅视觉无监督的布料动力学学习问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 布料动力学 无监督学习 视觉学习 高斯溅射 动力学模拟 三维重建 图神经网络

📋 核心要点

  1. 现有布料动力学学习方法依赖已知物理属性作为监督或输入,限制了其在未知条件下的应用。
  2. CloDS通过视频到几何的基准化,在基准化的网格上训练动力学模型,实现无监督学习。
  3. 引入双位置不透明度调制,有效处理大型非线性变形和自遮挡,提升了泛化能力。

📝 摘要(中文)

深度学习在模拟复杂动力学系统方面表现出卓越的能力。然而,现有方法需要已知的物理属性作为监督或输入,限制了它们在未知条件下的适用性。为了探索这一挑战,我们引入了布料动力学基准(CDG),这是一种从多视角视觉观察中无监督学习布料动力学的新场景。我们进一步提出了布料动力学溅射(CloDS),这是一种专为CDG设计的无监督动态学习框架。CloDS采用三阶段流程,首先执行视频到几何的基准化,然后在基准化的网格上训练动力学模型。为了应对基准化过程中的大型非线性变形和严重的自遮挡,我们引入了一种双位置不透明度调制,它支持通过基于网格的高斯溅射在2D观察和3D几何之间的双向映射。它共同考虑了高斯分量的绝对和相对位置。全面的实验评估表明,CloDS有效地从视觉数据中学习布料动力学,同时保持了对未见配置的强大泛化能力。我们的代码可在https://github.com/whynot-zyl/CloDS 获得。可视化结果可在https://github.com/whynot-zyl/CloDS_video 获得。

🔬 方法详解

问题定义:现有布料动力学模拟方法通常需要预先知道布料的物理参数,例如密度、弹性系数等。在实际应用中,这些参数往往难以获取,尤其是在未知或复杂环境下。因此,如何在没有物理参数先验知识的情况下,仅通过视觉观测学习布料的动态行为是一个重要的挑战。现有方法难以处理大型非线性变形和严重的自遮挡问题,导致学习效果不佳。

核心思路:CloDS的核心思路是通过视频到几何的基准化(video-to-geometry grounding)将视觉信息转化为几何表示,然后在几何表示上学习动力学模型。这种方法避免了直接从像素空间学习动力学,从而降低了学习难度。同时,通过引入双位置不透明度调制,增强了对大型非线性变形和自遮挡的处理能力。

技术框架:CloDS框架包含三个主要阶段:1) 视频到几何的基准化:利用多视角视频数据重建布料的3D网格模型。2) 动力学模型训练:在重建的网格模型上训练一个动力学模型,用于预测布料在不同时刻的状态。3) 渲染:将预测的布料状态渲染成图像,用于可视化和评估。

关键创新:CloDS的关键创新在于双位置不透明度调制。该方法在基于网格的高斯溅射中,同时考虑了高斯分量的绝对位置和相对位置,从而更准确地建立2D观察和3D几何之间的映射关系。这种方法有效地解决了大型非线性变形和自遮挡问题,提高了重建精度和动力学模型的学习效果。

关键设计:双位置不透明度调制的具体实现方式是,在计算每个高斯分量的不透明度时,不仅考虑其在3D空间中的绝对位置,还考虑其相对于相邻高斯分量的相对位置。这可以通过引入一个额外的损失函数来实现,该损失函数惩罚了相邻高斯分量的不一致不透明度。此外,动力学模型采用基于图神经网络(GNN)的结构,可以有效地捕捉布料网格节点之间的相互作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CloDS在无监督布料动力学学习任务上取得了显著的性能提升。与现有方法相比,CloDS能够更准确地重建布料的3D模型,并学习到更逼真的动力学行为。在多个数据集上的实验结果表明,CloDS的性能优于现有方法,并且具有更强的泛化能力,能够处理未见过的布料配置。

🎯 应用场景

CloDS在虚拟试衣、电影特效、游戏开发等领域具有广泛的应用前景。它可以用于模拟服装在人体上的动态效果,提高虚拟试衣的真实感。在电影特效中,可以用于生成逼真的布料动画。在游戏开发中,可以用于模拟角色服装的动态效果,增强游戏的沉浸感。该研究为无监督布料动力学学习提供了一种新的解决方案,有望推动相关领域的发展。

📄 摘要(原文)

Deep learning has demonstrated remarkable capabilities in simulating complex dynamic systems. However, existing methods require known physical properties as supervision or inputs, limiting their applicability under unknown conditions. To explore this challenge, we introduce Cloth Dynamics Grounding (CDG), a novel scenario for unsupervised learning of cloth dynamics from multi-view visual observations. We further propose Cloth Dynamics Splatting (CloDS), an unsupervised dynamic learning framework designed for CDG. CloDS adopts a three-stage pipeline that first performs video-to-geometry grounding and then trains a dynamics model on the grounded meshes. To cope with large non-linear deformations and severe self-occlusions during grounding, we introduce a dual-position opacity modulation that supports bidirectional mapping between 2D observations and 3D geometry via mesh-based Gaussian splatting in video-to-geometry grounding stage. It jointly considers the absolute and relative position of Gaussian components. Comprehensive experimental evaluations demonstrate that CloDS effectively learns cloth dynamics from visual data while maintaining strong generalization capabilities for unseen configurations. Our code is available at https://github.com/whynot-zyl/CloDS. Visualization results are available at https://github.com/whynot-zyl/CloDS_video}.%\footnote{As in this example.