HOGraspFlow: Exploring Vision-based Generative Grasp Synthesis with Hand-Object Priors and Taxonomy Awareness

作者: Yitian Shi, Zicheng Guo, Rosa Wolf, Edgar Welte, Rania Rayyes

分类: cs.RO

发布日期: 2025-09-21

备注: under review

💡 一句话要点

提出HOGraspFlow，利用手-物先验和分类感知实现基于视觉的生成式抓取合成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 抓取合成 手-物交互 视觉感知 流匹配 机器人操作

📋 核心要点

现有抓取合成方法依赖于显式的物体几何先验或精确的手-物交互接触信息，限制了其在复杂环境中的应用。
HOGraspFlow利用RGB图像中的视觉语义、手-物交互接触重建和抓取类型分类先验，通过去噪流匹配生成高质量的抓取姿势。
实验表明，HOGraspFlow在没有显式HOI接触输入或对象几何的情况下，实现了高保真度的抓取合成，并在真实世界实验中取得了超过83%的成功率。

📝 摘要（中文）

我们提出了一种以可供性为中心的Hand-Object (HO)GraspFlow方法，该方法将单个带有手-物交互(HOI)的RGB图像重新定向为多模态可执行的平行爪抓取，而无需目标对象的显式几何先验。基于手部重建和视觉的基础模型，我们通过去噪流匹配(FM)合成$SE(3)$抓取姿势，并以以下三个互补线索为条件：RGB基础特征作为视觉语义、HOI接触重建以及抓取类型的分类感知先验。我们的方法在没有显式HOI接触输入或对象几何的情况下，展示了抓取合成的高保真度，同时保持了强大的接触和分类识别能力。另一项受控比较表明，HOGraspFlow始终优于基于扩散的变体(HOGraspDiff)，在$SE(3)$中实现了高分布保真度和更稳定的优化。我们在真实世界的实验中展示了从人类演示中进行可靠的、对象无关的抓取合成，平均成功率超过83%。

🔬 方法详解

问题定义：论文旨在解决在缺乏目标物体精确几何信息和手-物交互精确接触信息的情况下，如何仅通过RGB图像生成高质量、可执行的抓取姿势的问题。现有方法通常依赖于显式的物体几何先验或精确的接触信息，这限制了它们在实际场景中的应用，因为获取这些信息往往是困难或不准确的。

核心思路：论文的核心思路是利用视觉语义、手-物交互接触重建和抓取类型分类先验作为条件，通过去噪流匹配（Denoising Flow Matching）来生成抓取姿势。这种方法避免了对物体几何形状的显式依赖，而是利用视觉信息和手-物交互的隐含知识来推断合适的抓取姿势。通过引入抓取类型的分类先验，可以进一步提高抓取姿势的合理性和成功率。

技术框架：HOGraspFlow的整体框架包括以下几个主要模块：1) RGB图像特征提取：利用预训练的视觉基础模型提取RGB图像的视觉语义特征。2) 手-物交互接触重建：从RGB图像中重建手部和物体的接触信息。3) 抓取类型分类：根据视觉信息和手-物交互信息，预测抓取的类型（例如，捏取、抓取等）。4) 去噪流匹配：利用视觉语义特征、手-物交互接触信息和抓取类型分类先验作为条件，通过去噪流匹配生成抓取姿势。

关键创新：该论文的关键创新在于：1) 提出了一种基于视觉的生成式抓取合成方法，该方法不需要显式的物体几何先验或精确的手-物交互接触信息。2) 利用手-物交互接触重建和抓取类型分类先验作为条件，提高了抓取姿势的合理性和成功率。3) 使用去噪流匹配（Denoising Flow Matching）进行抓取姿势的生成，相比于基于扩散模型的方法，实现了更高的分布保真度和更稳定的优化。

关键设计：在技术细节上，论文使用了预训练的视觉基础模型来提取RGB图像的特征。手-物交互接触重建模块可能采用了现有的手部姿态估计方法，并结合视觉信息来推断接触点。抓取类型分类模块可能使用了分类网络，并以视觉特征和手-物交互信息作为输入。去噪流匹配模块的具体实现细节未知，但可能涉及到损失函数的设计，以确保生成的抓取姿势符合视觉语义、手-物交互和抓取类型先验。

📊 实验亮点

实验结果表明，HOGraspFlow在没有显式HOI接触输入或对象几何的情况下，实现了高保真度的抓取合成。与基于扩散的变体(HOGraspDiff)相比，HOGraspFlow在$SE(3)$中实现了更高的分布保真度和更稳定的优化。在真实世界的实验中，HOGraspFlow从人类演示中进行对象无关的抓取合成，平均成功率超过83%。

🎯 应用场景

HOGraspFlow在机器人抓取领域具有广泛的应用前景，例如在家庭服务机器人、工业自动化和医疗辅助机器人等领域。该方法可以使机器人能够仅通过视觉信息就能完成复杂的抓取任务，而无需预先了解物体的几何形状或进行精确的接触规划。这大大提高了机器人的灵活性和适应性，使其能够更好地适应真实世界的复杂环境。

📄 摘要（原文）

We propose Hand-Object\emph{(HO)GraspFlow}, an affordance-centric approach that retargets a single RGB with hand-object interaction (HOI) into multi-modal executable parallel jaw grasps without explicit geometric priors on target objects. Building on foundation models for hand reconstruction and vision, we synthesize $SE(3)$ grasp poses with denoising flow matching (FM), conditioned on the following three complementary cues: RGB foundation features as visual semantics, HOI contact reconstruction, and taxonomy-aware prior on grasp types. Our approach demonstrates high fidelity in grasp synthesis without explicit HOI contact input or object geometry, while maintaining strong contact and taxonomy recognition. Another controlled comparison shows that \emph{HOGraspFlow} consistently outperforms diffusion-based variants (\emph{HOGraspDiff}), achieving high distributional fidelity and more stable optimization in $SE(3)$. We demonstrate a reliable, object-agnostic grasp synthesis from human demonstrations in real-world experiments, where an average success rate of over $83\%$ is achieved.

HOGraspFlow: Exploring Vision-based Generative Grasp Synthesis with Hand-Object Priors and Taxonomy Awareness

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册