HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

作者: Chongyang Xu, Shen Cheng, Haipeng Li, Haoqiang Fan, Ziliang Feng, Shuaicheng Liu

分类: cs.CV

发布日期: 2026-02-21

备注: Accepted by ICRA 2026

🔗 代码/项目: GITHUB

💡 一句话要点

HeRO：用于姿态感知物体操作的分层3D语义表示

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 模仿学习 姿态感知 语义表示 扩散模型

📋 核心要点

现有机器人操作模仿学习方法缺乏显式的部件级语义信息，难以有效处理姿态感知操作任务。
HeRO通过分层语义场耦合几何和语义信息，利用扩散模型生成姿态感知的连贯控制策略。
实验结果表明，HeRO在多个姿态感知操作任务上取得了显著的性能提升，超越了现有技术水平。

📝 摘要（中文）

针对机器人操作的模仿学习已从2D图像策略发展到显式编码几何信息的3D表示。然而，纯几何策略通常缺乏显式的部件级语义，这对于姿态感知操作至关重要（例如，区分鞋子的鞋头和鞋跟）。本文提出了HeRO，一种基于扩散模型的策略，通过分层语义场耦合几何和语义。HeRO采用密集语义提升，将DINOv2中判别性的、几何敏感的特征与Stable Diffusion中平滑的、全局一致的对应关系融合，从而产生细粒度且空间一致的密集特征。这些特征经过处理和划分，以构建全局场和一组局部场。分层条件模块使用置换不变网络架构对生成式去噪器进行全局和局部场的条件约束，从而避免了顺序敏感的偏差，并为姿态感知操作生成连贯的控制策略。在各项测试中，HeRO建立了新的技术水平，在放置双鞋任务上的成功率提高了12.3%，并在六项具有挑战性的姿态感知任务中平均提高了6.5%。

🔬 方法详解

问题定义：现有的机器人操作模仿学习方法，尤其是基于3D表示的方法，通常缺乏对物体部件级语义信息的显式建模。这导致在需要根据物体姿态进行精细操作的任务中表现不佳，例如区分鞋子的鞋头和鞋跟，并根据区分结果进行放置。现有方法难以有效融合几何信息和语义信息，导致策略泛化能力不足。

核心思路：HeRO的核心思路是通过分层语义场来显式地建模物体的几何和语义信息，并利用扩散模型生成控制策略。具体来说，HeRO首先提取密集语义特征，然后将其划分为全局场和局部场，最后通过分层条件模块将这些场的信息融入到扩散模型的去噪过程中，从而生成姿态感知的操作策略。这种分层结构允许模型同时考虑全局的场景上下文和局部的部件细节。

技术框架：HeRO的整体框架包含以下几个主要模块：1) 密集语义提升模块：该模块融合DINOv2和Stable Diffusion的特征，生成既具有判别性又具有空间一致性的密集语义特征。2) 分层语义场构建模块：该模块将密集语义特征划分为全局场和局部场，分别编码全局场景信息和局部部件信息。3) 分层条件模块：该模块使用置换不变网络架构，将全局场和局部场的信息融入到扩散模型的去噪过程中，生成控制策略。4) 扩散模型：使用扩散模型作为策略生成器，通过迭代去噪过程生成最终的操作指令。

关键创新：HeRO的关键创新在于其分层语义表示和分层条件模块。分层语义表示能够同时编码全局场景信息和局部部件信息，从而更好地处理姿态感知操作任务。分层条件模块使用置换不变网络架构，避免了顺序敏感的偏差，保证了策略的连贯性。此外，融合DINOv2和Stable Diffusion的特征也提升了语义特征的质量。

关键设计：在密集语义提升模块中，DINOv2用于提取几何敏感的特征，Stable Diffusion用于提供全局一致的对应关系。全局场编码整个场景的语义信息，局部场编码每个部件的语义信息。分层条件模块使用MLP进行特征融合。扩散模型采用标准的DDPM架构，损失函数为L2损失。置换不变网络架构保证了对局部场顺序的不敏感性。

🖼️ 关键图片

📊 实验亮点

HeRO在多个姿态感知操作任务上取得了显著的性能提升。例如，在Place Dual Shoes任务上，HeRO的成功率提高了12.3%。在六个具有挑战性的姿态感知任务中，HeRO的平均成功率提高了6.5%。这些结果表明，HeRO能够有效地利用语义信息来提升机器人操作的性能，并超越了现有技术水平。

🎯 应用场景

HeRO在机器人操作领域具有广泛的应用前景，例如在智能制造中，可以用于精确地装配具有复杂结构的零件；在家庭服务机器人中，可以用于根据物体的姿态进行整理和放置；在医疗机器人中，可以用于进行精细的手术操作。该研究有助于提升机器人操作的智能化水平和泛化能力。

📄 摘要（原文）

Imitation learning for robotic manipulation has progressed from 2D image policies to 3D representations that explicitly encode geometry. Yet purely geometric policies often lack explicit part-level semantics, which are critical for pose-aware manipulation (e.g., distinguishing a shoe's toe from heel). In this paper, we present HeRO, a diffusion-based policy that couples geometry and semantics via hierarchical semantic fields. HeRO employs dense semantics lifting to fuse discriminative, geometry-sensitive features from DINOv2 with the smooth, globally coherent correspondences from Stable Diffusion, yielding dense features that are both fine-grained and spatially consistent. These features are processed and partitioned to construct a global field and a set of local fields. A hierarchical conditioning module conditions the generative denoiser on global and local fields using permutation-invariant network architecture, thereby avoiding order-sensitive bias and producing a coherent control policy for pose-aware manipulation. In various tests, HeRO establishes a new state-of-the-art, improving success on Place Dual Shoes by 12.3% and averaging 6.5% gains across six challenging pose-aware tasks. Code is available at https://github.com/Chongyang-99/HeRO.

HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理