ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning

📄 arXiv: 2512.22854v1 📥 PDF

作者: Bangya Liu, Xinyu Gong, Zelin Zhao, Ziyang Song, Yulei Lu, Suhui Wu, Jun Zhang, Suman Banerjee, Hao Zhang

分类: cs.CV, cs.GR, cs.LG

发布日期: 2025-12-28


💡 一句话要点

ByteLoom:通过渐进式课程学习编织几何一致的人-物交互视频

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 视频生成 扩散模型 几何一致性 相对坐标图 课程学习 3D物体

📋 核心要点

  1. 现有HOI视频生成方法难以有效利用物体多视角信息,导致跨视角一致性差,且过度依赖手部网格标注。
  2. ByteLoom提出RCM-cache机制,利用相对坐标图保持物体几何一致性,并设计渐进式课程学习以降低对手部标注的需求。
  3. 实验表明ByteLoom能忠实保留人物身份和物体多视角几何信息,同时保证运动平滑和物体操作的自然性。

📝 摘要(中文)

人-物交互(HOI)视频生成在数字人、电子商务、广告和机器人模仿学习等领域具有广阔的应用前景,因此受到了越来越多的关注。然而,现有方法面临两个关键限制:(1)缺乏将物体的多视角信息有效注入模型的机制,导致跨视角一致性较差;(2)严重依赖精细的手部网格标注来建模交互遮挡。为了解决这些挑战,我们提出了ByteLoom,一个基于Diffusion Transformer(DiT)的框架,它使用简化的手部条件和3D物体输入,生成具有几何一致物体渲染的逼真HOI视频。我们首先提出了一个RCM-cache机制,该机制利用相对坐标图(RCM)作为通用表示,以保持物体的几何一致性,并同时精确控制6-DoF物体变换。为了弥补HOI数据集的稀缺性并利用现有数据集,我们进一步设计了一个训练课程,以渐进的方式增强模型的能力,并放宽对手部网格的需求。大量实验表明,我们的方法忠实地保留了人的身份和物体的多视角几何形状,同时保持了平滑的运动和物体操作。

🔬 方法详解

问题定义:现有的人-物交互(HOI)视频生成方法在处理物体多视角一致性方面存在不足,难以保证生成视频中物体在不同视角下的几何形状一致。此外,这些方法通常需要精细的手部网格标注来处理交互过程中的遮挡问题,增加了数据标注的成本和难度。

核心思路:ByteLoom的核心思路是利用相对坐标图(RCM)作为物体的通用表示,通过RCM-cache机制来保持物体的几何一致性,并精确控制物体在6个自由度上的变换。同时,采用渐进式课程学习策略,逐步提升模型的能力,从而降低对手部网格标注的依赖。

技术框架:ByteLoom是一个基于Diffusion Transformer(DiT)的框架。整体流程包括:首先,使用简化的手部条件和3D物体输入;然后,通过RCM-cache机制提取和存储物体的几何信息;接着,利用Diffusion Transformer生成视频帧;最后,通过训练课程逐步提升模型生成HOI视频的能力。该框架主要包含RCM-cache模块、Diffusion Transformer模块和课程学习模块。

关键创新:ByteLoom最重要的技术创新点在于RCM-cache机制,它使用相对坐标图(RCM)作为物体的通用表示,能够有效地保持物体的几何一致性,并精确控制物体在6个自由度上的变换。与现有方法相比,RCM-cache机制避免了直接使用复杂的3D模型或多视角图像,从而简化了模型的输入和计算复杂度。

关键设计:RCM-cache机制的关键设计在于使用相对坐标图(RCM)来表示物体的几何信息,RCM将物体表面的每个点相对于物体中心的位置编码为一个向量。Diffusion Transformer (DiT) 的具体结构和参数设置未知。课程学习策略的具体实现方式未知,但其核心思想是从简单到复杂,逐步增加训练难度,从而提升模型的泛化能力。

📊 实验亮点

论文通过大量实验验证了ByteLoom的有效性。实验结果表明,ByteLoom能够忠实地保留人的身份和物体的多视角几何形状,同时保持平滑的运动和物体操作。具体的性能数据和对比基线未知,但论文强调ByteLoom在几何一致性方面优于现有方法,并降低了对手部网格标注的依赖。

🎯 应用场景

ByteLoom的研究成果可广泛应用于数字人生成、电子商务产品展示、广告创意设计以及机器人模仿学习等领域。该技术能够生成逼真且几何一致的人-物交互视频,提升用户体验,降低内容创作成本,并为机器人提供更有效的学习数据。未来,该技术有望进一步拓展到虚拟现实、增强现实等领域,实现更自然、更真实的交互体验。

📄 摘要(原文)

Human-object interaction (HOI) video generation has garnered increasing attention due to its promising applications in digital humans, e-commerce, advertising, and robotics imitation learning. However, existing methods face two critical limitations: (1) a lack of effective mechanisms to inject multi-view information of the object into the model, leading to poor cross-view consistency, and (2) heavy reliance on fine-grained hand mesh annotations for modeling interaction occlusions. To address these challenges, we introduce ByteLoom, a Diffusion Transformer (DiT)-based framework that generates realistic HOI videos with geometrically consistent object illustration, using simplified human conditioning and 3D object inputs. We first propose an RCM-cache mechanism that leverages Relative Coordinate Maps (RCM) as a universal representation to maintain object's geometry consistency and precisely control 6-DoF object transformations in the meantime. To compensate HOI dataset scarcity and leverage existing datasets, we further design a training curriculum that enhances model capabilities in a progressive style and relaxes the demand of hand mesh. Extensive experiments demonstrate that our method faithfully preserves human identity and the object's multi-view geometry, while maintaining smooth motion and object manipulation.