Latent Theory of Mind: A Decentralized Diffusion Architecture for Cooperative Manipulation

📄 arXiv: 2505.09144v1 📥 PDF

作者: Chengyang He, Gadiel Sznaier Camps, Xu Liu, Mac Schwager, Guillaume Sartoretti

分类: cs.RO

发布日期: 2025-05-14

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出LatentToM,一种用于协作操作的去中心化扩散架构。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多机器人协作 去中心化控制 扩散模型 心智理论 层理论 潜在空间 机器人操作

📋 核心要点

  1. 现有协作机器人操作方法难以在去中心化环境中实现高效协作,尤其是在缺乏显式通信的情况下。
  2. LatentToM通过学习共享的共识嵌入和推断对方状态的自我嵌入,实现了机器人间的隐式信息交换和协作。
  3. 硬件实验表明,LatentToM在去中心化协作操作中优于基线方法,并能与集中式方法相媲美。

📝 摘要(中文)

本文提出了一种名为Latent Theory of Mind (LatentToM) 的去中心化扩散策略架构,用于协作机器人操作。该策略允许多个具有各自感知和计算能力的机械臂在有或没有显式通信的情况下,为了共同的任务目标而相互协作。其关键创新在于允许每个智能体维护两个潜在表示:一个特定于机器人的自我嵌入(ego embedding),以及一个被训练为对两个机器人通用的共识嵌入(consensus embedding),尽管它们具有不同的传感器数据流和姿态。此外,每个机器人训练一个解码器,从它们的共识嵌入中推断出另一个机器人的自我嵌入,类似于潜在空间中的心智理论。训练集中进行,所有策略的共识编码器都受到受层理论启发的损失函数的监督,层理论是一种用于在拓扑流形上聚类数据的数学理论。具体来说,引入了一阶上同调损失,以强制执行共识嵌入的层一致性对齐。为了保持共识嵌入的表达性,进一步提出了基于心智理论的结构约束和定向共识机制。执行可以是完全分布式的,不需要策略之间的显式通信。在这种情况下,信息通过每个机器人的传感器数据流隐式交换,通过观察其他机器人的动作及其对场景的影响。或者,执行可以利用直接通信来共享机器人的共识嵌入,其中嵌入在每个推理步骤中共享一次,并使用层拉普拉斯算子对齐。在硬件实验中,LatentToM优于朴素的去中心化扩散基线,并且在双臂操作方面表现出与最先进的集中式扩散策略相当的性能。

🔬 方法详解

问题定义:论文旨在解决多机器人协作操作问题,特别是在去中心化控制和有限通信的场景下。现有方法通常依赖于集中式控制或复杂的通信协议,难以适应动态环境和大规模机器人集群。此外,不同机器人间的感知差异和姿态差异也增加了协作的难度。

核心思路:论文的核心思想是让每个机器人学习一个共享的“共识嵌入”,该嵌入捕捉了任务相关的全局信息,并允许机器人推断其他机器人的状态和意图,类似于人类的“心智理论”。通过在潜在空间中进行推理和协作,机器人可以在不需要显式通信的情况下实现高效的协作。

技术框架:LatentToM的整体架构包含以下几个主要模块:1) 自我编码器(Ego Encoder):将机器人的局部观测转换为自我嵌入。2) 共识编码器(Consensus Encoder):将自我嵌入映射到共享的共识嵌入。3) 解码器(Decoder):从共识嵌入中推断其他机器人的自我嵌入。4) 扩散策略(Diffusion Policy):基于自我嵌入和共识嵌入生成机器人的动作。训练过程是集中式的,而执行过程可以是去中心化的,可以选择是否进行显式通信。

关键创新:该论文的关键创新在于:1) 提出了基于潜在空间的心智理论框架,允许机器人隐式地理解其他机器人的状态和意图。2) 引入了层理论(Sheaf Theory)中的一阶上同调损失,用于对齐不同机器人的共识嵌入,保证其一致性。3) 设计了定向共识机制,增强了共识嵌入的表达能力。

关键设计:论文中一些关键的设计细节包括:1) 使用扩散模型作为策略生成器,能够生成多样化的动作序列。2) 使用层拉普拉斯算子对齐通过显式通信共享的共识嵌入。3) 通过最小化自我嵌入和解码器输出之间的差异来训练解码器,鼓励机器人学习准确地推断其他机器人的状态。4) 损失函数包含三部分:扩散损失、上同调损失和重构损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

硬件实验表明,LatentToM在双臂操作任务中优于朴素的去中心化扩散基线,并且在性能上与最先进的集中式扩散策略相当。这表明LatentToM能够在去中心化环境中实现高效的协作操作,并具有很强的实用价值。具体性能数据未知。

🎯 应用场景

LatentToM具有广泛的应用前景,例如:协同装配、多机器人搜索救援、分布式物流等。该方法能够提高多机器人系统的协作效率和鲁棒性,降低对通信带宽的需求,并支持异构机器人之间的协作。未来,该研究可以扩展到更大规模的机器人集群,并应用于更复杂的任务场景。

📄 摘要(原文)

We present Latent Theory of Mind (LatentToM), a decentralized diffusion policy architecture for collaborative robot manipulation. Our policy allows multiple manipulators with their own perception and computation to collaborate with each other towards a common task goal with or without explicit communication. Our key innovation lies in allowing each agent to maintain two latent representations: an ego embedding specific to the robot, and a consensus embedding trained to be common to both robots, despite their different sensor streams and poses. We further let each robot train a decoder to infer the other robot's ego embedding from their consensus embedding, akin to theory of mind in latent space. Training occurs centrally, with all the policies' consensus encoders supervised by a loss inspired by sheaf theory, a mathematical theory for clustering data on a topological manifold. Specifically, we introduce a first-order cohomology loss to enforce sheaf-consistent alignment of the consensus embeddings. To preserve the expressiveness of the consensus embedding, we further propose structural constraints based on theory of mind and a directional consensus mechanism. Execution can be fully distributed, requiring no explicit communication between policies. In which case, the information is exchanged implicitly through each robot's sensor stream by observing the actions of the other robots and their effects on the scene. Alternatively, execution can leverage direct communication to share the robots' consensus embeddings, where the embeddings are shared once during each inference step and are aligned using the sheaf Laplacian. In our hardware experiments, LatentToM outperforms a naive decentralized diffusion baseline, and shows comparable performance with a state-of-the-art centralized diffusion policy for bi-manual manipulation. Project website: https://stanfordmsl.github.io/LatentToM/.