Analogical Trajectory Transfer
作者: Junho Kim, Eun Sun Lee, Gwangtak Bae, Seunggu Kang, Young Min Kim
分类: cs.CV
发布日期: 2026-05-14
💡 一句话要点
提出一种无训练的轨迹类比迁移方法,实现跨场景语义一致的运动轨迹转换。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 轨迹迁移 类比推理 3D场景理解 机器人运动规划 AR/VR 无监督学习 空间推理
📋 核心要点
- 现有方法难以处理跨场景物体布局、尺度差异导致的轨迹迁移中的碰撞和几何扭曲问题。
- 将问题分解为空间隔离的子问题,通过分层平滑地图预测和组合优化实现语义一致和空间连贯的迁移。
- 该方法无需训练,运行速度快,并在虚拟协同、多轨迹迁移等应用中优于现有方法。
📝 摘要(中文)
本文研究了类比轨迹迁移问题,目标是将一个3D环境中的运动轨迹转换到另一个环境中语义相似的位置。这种能力使机器能够进行类比空间推理,应用于AR/VR协同、内容创作和机器人技术。然而,即使语义相似的场景在物体放置、尺度和布局上仍可能存在显著差异,导致直接匹配语义会产生碰撞或几何扭曲。此外,找到每个轨迹点应该迁移到的位置具有很大的搜索空间,因为映射必须在不破坏轨迹或引起碰撞的情况下保持语义和功能。我们的关键见解是将问题分解为空间隔离的子问题,并合并它们的解决方案,以产生语义一致和空间连贯的迁移。具体来说,我们将场景划分为以对象为中心的集群,并使用3D基础模型特征(编码来自对象和开放空间排列的上下文信息)通过分层平滑地图预测来估计跨场景映射。然后,我们将每个集群的地图组合成一个初始迁移,并细化结果以消除碰撞和扭曲,从而产生空间连贯的轨迹。我们的方法不需要训练,运行速度快(约0.6秒),并且优于基于LLM、VLM和场景图匹配的基线。我们进一步展示了在虚拟协同、多轨迹迁移、相机迁移和人到机器人运动迁移中的应用,这表明了我们的工作在AR/VR和机器人技术中的广泛适用性。
🔬 方法详解
问题定义:论文旨在解决类比轨迹迁移问题,即如何将一个3D环境中的运动轨迹转换到另一个语义相似的3D环境中。现有方法,如直接语义匹配,容易因场景中物体位置、尺度和布局的差异而导致轨迹碰撞或几何扭曲,无法保证迁移后的轨迹在新的场景中仍然合理和有效。此外,搜索合适的轨迹迁移目标点是一个巨大的搜索空间,需要同时考虑语义一致性、轨迹连贯性和避免碰撞等多个约束条件。
核心思路:论文的核心思路是将复杂的轨迹迁移问题分解为多个空间隔离的子问题,分别解决后再进行整合。通过将场景划分为以对象为中心的集群,并在这些局部区域内寻找语义相似的对应关系,可以有效降低搜索空间,并更容易保证局部迁移的合理性。然后,通过组合优化和细化步骤,将这些局部迁移结果整合为一个全局一致且无碰撞的轨迹。
技术框架:该方法主要包含以下几个阶段:1) 场景分割:将源场景和目标场景分割成以对象为中心的集群。2) 跨场景映射估计:利用3D基础模型提取的特征,通过分层平滑地图预测,估计每个集群在源场景和目标场景之间的对应关系。3) 初始迁移组合:将每个集群的映射组合成一个初始的轨迹迁移结果。4) 轨迹优化与细化:对初始迁移结果进行优化,消除碰撞和几何扭曲,得到最终的迁移轨迹。
关键创新:该方法的主要创新在于:1) 分解与组合策略:将轨迹迁移问题分解为局部子问题,并通过组合优化实现全局一致性,有效降低了问题的复杂度。2) 基于3D基础模型的特征表示:利用3D基础模型提取的特征,能够更好地捕捉场景中的语义信息和空间关系,从而提高跨场景映射的准确性。3) 无训练方法:该方法不需要训练数据,具有更好的泛化能力和适用性。
关键设计:论文使用了3D基础模型来提取场景特征,这些特征用于构建分层平滑地图,进而预测跨场景的映射关系。具体来说,使用了预训练的3D视觉模型来提取每个对象和开放空间的特征向量,这些向量被用于计算对象之间的相似度。此外,论文还设计了一种组合优化算法,用于将局部迁移结果组合成全局一致的轨迹,并采用碰撞检测和轨迹平滑等技术来消除碰撞和几何扭曲。
🖼️ 关键图片
📊 实验亮点
该方法在多个实验中表现出色,无需训练即可达到0.6秒的快速运行时间,并且在虚拟协同、多轨迹迁移、相机迁移和人到机器人运动迁移等任务中,性能优于基于LLM、VLM和场景图匹配的基线方法。这些结果表明该方法具有很强的实用性和泛化能力。
🎯 应用场景
该研究成果可广泛应用于AR/VR协同、内容创作和机器人技术等领域。例如,在AR/VR协同中,可以将用户的运动轨迹从一个虚拟环境迁移到另一个虚拟环境,实现更自然的交互体验。在内容创作中,可以快速生成各种场景下的运动轨迹,提高创作效率。在机器人技术中,可以将人类的运动轨迹迁移到机器人身上,实现更智能的机器人控制。
📄 摘要(原文)
We study analogical trajectory transfer, where the goal is to translate motion trajectories in one 3D environment to a semantically analogous location in another. Such a capacity would enable machines to perform analogical spatial reasoning, with applications in AR/VR co-presence, content creation, and robotics. However, even semantically similar scenes can still differ substantially in object placement, scale, and layout, so naively matching semantics leads to collisions or geometric distortions. Furthermore, finding where each trajectory point should transfer to has a large search space, as the mapping must preserve semantics and functionality without tearing the trajectory apart or causing collisions. Our key insight is to decompose the problem into spatially segregated subproblems and merge their solutions to produce semantically consistent and spatially coherent transfers. Specifically, we partition scenes into object-centric clusters and estimate cross-scene mappings via hierarchical smooth map prediction, using 3D foundation model features that encode contextual information from object and open-space arrangements. We then combinatorially assemble the per-cluster maps into an initial transfer and refine the result to remove collisions and distortions, yielding a spatially coherent trajectory. Our method does not require training, attains a fast runtime around 0.6 seconds, and outperforms baselines based on LLMs, VLMs, and scene graph matching. We further showcase applications in virtual co-presence, multi-trajectory transfer, camera transfer, and human-to-robot motion transfer, which indicates the broad applicability of our work to AR/VR and robotics.