LessMimic: Long-Horizon Humanoid Interaction with Unified Distance Field Representations

📄 arXiv: 2602.21723v1 📥 PDF

作者: Yutang Lin, Jieming Cui, Yixuan Li, Baoxiong Jia, Yixin Zhu, Siyuan Huang

分类: cs.RO

发布日期: 2026-02-25


💡 一句话要点

LessMimic:基于统一距离场表示的长时程人型机器人交互

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人形机器人 距离场 强化学习 具身智能 技能组合 视觉迁移 几何泛化

📋 核心要点

  1. 现有方法依赖参考运动或任务特定奖励,导致策略与特定物体几何形状耦合,缺乏多技能泛化能力。
  2. LessMimic利用距离场(DF)作为统一表示,通过DF导出的几何线索调节全身策略,无需参考运动。
  3. 实验表明,LessMimic在不同物体尺度和组合任务中表现出色,并能通过蒸馏迁移到纯视觉部署。

📝 摘要(中文)

人型机器人自主地与物理环境进行长时程交互是具身智能的核心目标。现有方法依赖于参考运动或特定任务的奖励,将策略与特定物体几何形状紧密耦合,并排除了单个框架内的多技能泛化。本文提出使用距离场(DF)作为统一的交互表示,LessMimic基于DF导出的几何线索(表面距离、梯度和速度分解)来调节单个全身策略,无需运动参考。交互潜在变量通过变分自编码器(VAE)编码,并使用强化学习下的对抗交互先验(AIP)进行后训练。通过DAgger风格的蒸馏,将DF潜在变量与自我中心深度特征对齐,LessMimic可以无缝地转移到纯视觉部署,无需运动捕捉(MoCap)基础设施。单个LessMimic策略在PickUp和SitStand任务中,物体尺度从0.4x到1.6x变化时,成功率达到80-100%,而基线方法性能急剧下降;在5个任务实例轨迹上达到62.1%的成功率,并且在最多40个顺序组合任务中仍然可行。通过将交互建立在局部几何而非演示之上,LessMimic为实现可泛化、可组合技能并在非结构化环境中从失败中恢复的人型机器人提供了一条可扩展的路径。

🔬 方法详解

问题定义:现有的人形机器人交互方法通常依赖于参考运动或特定任务的奖励函数,这导致策略难以泛化到新的物体几何形状或任务组合。这些方法缺乏一个统一的表示,能够同时支持参考无关的推理、几何泛化和长时程技能组合。

核心思路:LessMimic的核心思路是使用距离场(Distance Field, DF)作为统一的交互表示。DF能够提供物体表面的几何信息,包括距离、梯度和速度分解,这些信息可以用来调节机器人的全身策略,而无需依赖于参考运动。通过将交互建立在局部几何之上,LessMimic能够实现更好的泛化能力和技能组合能力。

技术框架:LessMimic的整体框架包括以下几个主要模块:1) 使用距离场(DF)表示环境几何信息;2) 使用变分自编码器(VAE)编码交互潜在变量;3) 使用强化学习下的对抗交互先验(AIP)对VAE进行后训练;4) 使用DAgger风格的蒸馏,将DF潜在变量与自我中心深度特征对齐,实现视觉迁移。整个流程首先通过DF提取几何特征,然后使用VAE学习交互的潜在表示,接着使用AIP进行策略优化,最后通过蒸馏实现视觉迁移。

关键创新:LessMimic最重要的技术创新点在于使用距离场(DF)作为统一的交互表示。与现有方法依赖参考运动或任务特定奖励不同,LessMimic通过DF将交互建立在局部几何之上,从而实现了更好的泛化能力和技能组合能力。此外,通过对抗交互先验(AIP)和DAgger风格的蒸馏,LessMimic还实现了策略的优化和视觉迁移。

关键设计:LessMimic的关键设计包括:1) 使用VAE学习交互的潜在表示,这有助于策略的泛化;2) 使用对抗交互先验(AIP)进行策略优化,这可以提高策略的鲁棒性;3) 使用DAgger风格的蒸馏,将DF潜在变量与自我中心深度特征对齐,这使得策略可以无缝地转移到纯视觉部署。具体的损失函数和网络结构细节在论文中进行了详细描述,但此处不便展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LessMimic在PickUp和SitStand任务中,物体尺度从0.4x到1.6x变化时,成功率达到80-100%,而基线方法性能急剧下降。在5个任务实例轨迹上达到62.1%的成功率,并且在最多40个顺序组合任务中仍然可行。这些结果表明,LessMimic具有很强的泛化能力和技能组合能力。

🎯 应用场景

LessMimic在人形机器人领域具有广泛的应用前景,可用于开发能够在复杂环境中执行各种任务的机器人。例如,它可以应用于家庭服务机器人、工业机器人和搜救机器人等领域。通过将交互建立在局部几何之上,LessMimic可以实现更好的泛化能力和技能组合能力,从而提高机器人的自主性和适应性。未来的研究可以进一步探索如何将LessMimic应用于更复杂的任务和环境。

📄 摘要(原文)

Humanoid robots that autonomously interact with physical environments over extended horizons represent a central goal of embodied intelligence. Existing approaches rely on reference motions or task-specific rewards, tightly coupling policies to particular object geometries and precluding multi-skill generalization within a single framework. A unified interaction representation enabling reference-free inference, geometric generalization, and long-horizon skill composition within one policy remains an open challenge. Here we show that Distance Field (DF) provides such a representation: LessMimic conditions a single whole-body policy on DF-derived geometric cues--surface distances, gradients, and velocity decompositions--removing the need for motion references, with interaction latents encoded via a Variational Auto-Encoder (VAE) and post-trained using Adversarial Interaction Priors (AIP) under Reinforcement Learning (RL). Through DAgger-style distillation that aligns DF latents with egocentric depth features, LessMimic further transfers seamlessly to vision-only deployment without motion capture (MoCap) infrastructure. A single LessMimic policy achieves 80--100% success across object scales from 0.4x to 1.6x on PickUp and SitStand where baselines degrade sharply, attains 62.1% success on 5 task instances trajectories, and remains viable up to 40 sequentially composed tasks. By grounding interaction in local geometry rather than demonstrations, LessMimic offers a scalable path toward humanoid robots that generalize, compose skills, and recover from failures in unstructured environments.