AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

作者: Mingyang Li, Haofan Xu, Haowen Sun, Xinzhe Chen, Sihua Ren, Liqi Huang, Xinyang Sui, Chenyang Miao, Qiongjie Cui, Zeyang Liu, Xingyu Chen, Xuguang Lan

分类: cs.RO, cs.AI

发布日期: 2026-04-13

💡 一句话要点

AffordSim：一个可扩展的具身操作数据生成器与基准测试平台

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting)

关键词: 机器人操作 可供性感知 仿真数据生成 模仿学习 域随机化

📋 核心要点

现有机器人操作仿真平台缺乏对物体可供性的建模，导致无法生成语义正确的交互轨迹，限制了复杂操作任务的训练。
AffordSim框架集成了开放词汇3D可供性预测模型VoxAfford，利用多尺度几何特征引导抓取姿势估计，实现可供性感知的操作数据生成。
实验结果表明，AffordSim生成的数据能有效提升模仿学习算法在复杂操作任务上的性能，并具备良好的sim-to-real迁移能力。

📝 摘要（中文）

基于仿真的数据生成已成为训练机器人操作策略的主流范例，但现有平台未将对象可供性信息纳入轨迹生成中。因此，需要与特定功能区域精确交互的任务，例如握住杯子的把手、从杯子的边缘倒水或将杯子挂在挂钩上，无法通过语义上正确的轨迹自动生成。我们介绍了AffordSim，这是第一个将开放词汇3D可供性预测集成到操作数据生成流程中的仿真框架。AffordSim使用我们的VoxAfford模型，这是一种开放词汇3D可供性检测器，它通过多尺度几何特征增强MLLM输出tokens，以预测对象点云上的可供性图，从而引导抓取姿势估计朝向与任务相关的功能区域。AffordSim建立在NVIDIA Isaac Sim之上，具有跨具身支持（Franka FR3、Panda、UR5e、Kinova）、VLM驱动的任务生成以及使用基于DA3的真实照片3D高斯重建的新型域随机化，从而能够自动、可扩展地生成可供性感知操作数据。我们建立了一个包含7个类别（抓取、放置、堆叠、推/拉、倾倒、杯子悬挂、长时程复合）的50个任务的基准，并评估了4个模仿学习基线（BC、Diffusion Policy、ACT、Pi 0.5）。我们的结果表明，虽然抓取在很大程度上已得到解决（53-93% 的成功率），但对于当前的模仿学习方法而言，需要可供性的任务（例如倒入狭窄的容器（1-43%）和杯子悬挂（0-47%））仍然更具挑战性，这突出了对可供性感知数据生成的需求。在真实的Franka FR3上的零样本sim-to-real实验验证了生成数据的可迁移性。

🔬 方法详解

问题定义：现有机器人操作策略训练严重依赖于仿真数据，但现有仿真平台无法有效建模物体表面的可供性信息，导致难以生成针对特定功能区域的交互轨迹。例如，无法引导机器人抓取杯子的把手，或者将液体倒入特定容器中。这限制了机器人执行复杂操作任务的能力。

核心思路：AffordSim的核心思路是将开放词汇的3D可供性预测融入到机器人操作数据生成流程中。通过预测物体表面的可供性图，引导机器人生成与任务相关的交互轨迹。这种方法使得机器人能够理解物体的功能区域，并执行更精确和智能的操作。

技术框架：AffordSim框架主要包含以下几个模块：1) 基于NVIDIA Isaac Sim的仿真环境，提供物理引擎和机器人模型；2) VoxAfford模型，用于预测物体点云上的可供性图；3) VLM驱动的任务生成模块，用于自动生成各种操作任务；4) 基于DA3的域随机化模块，用于提高数据的真实性和泛化能力；5) 跨具身支持，支持多种机器人平台（Franka FR3, Panda, UR5e, Kinova）。整个流程是：首先，VLM生成任务描述；然后，VoxAfford预测场景中物体的可供性；接着，基于可供性信息生成机器人轨迹；最后，通过域随机化增强数据的多样性。

关键创新：AffordSim的关键创新在于将开放词汇的3D可供性预测与机器人操作数据生成相结合。VoxAfford模型能够理解自然语言描述的可供性概念，并将其转化为物体表面的可供性图。这种方法使得AffordSim能够自动生成针对特定功能区域的交互轨迹，从而解决了现有仿真平台无法有效建模物体可供性的问题。

关键设计：VoxAfford模型使用多尺度几何特征增强MLLM（Multimodal Large Language Model）的输出tokens，从而提高可供性预测的准确性。域随机化模块使用基于DA3的3D高斯重建，从真实照片中提取场景信息，并将其用于生成更真实的仿真环境。此外，AffordSim还支持多种机器人平台，方便研究人员在不同的机器人上进行实验。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AffordSim生成的数据能够显著提升模仿学习算法在复杂操作任务上的性能。例如，在倾倒任务中，使用AffordSim生成的数据训练的机器人，其成功率从1-43%提升到显著更高的水平。在杯子悬挂任务中，成功率从0-47%提升到更高水平。此外，零样本sim-to-real实验验证了生成数据的可迁移性，表明AffordSim具有很强的实际应用价值。

🎯 应用场景

AffordSim在机器人操作、自动化装配、智能家居等领域具有广泛的应用前景。例如，可以用于训练机器人执行复杂的装配任务，或者让机器人在家庭环境中完成各种日常操作。通过AffordSim生成的数据，可以显著提高机器人的智能化水平和操作能力，使其能够更好地适应复杂和动态的环境。

📄 摘要（原文）

Simulation-based data generation has become a dominant paradigm for training robotic manipulation policies, yet existing platforms do not incorporate object affordance information into trajectory generation. As a result, tasks requiring precise interaction with specific functional regions--grasping a mug by its handle, pouring from a cup's rim, or hanging a mug on a hook--cannot be automatically generated with semantically correct trajectories. We introduce AffordSim, the first simulation framework that integrates open-vocabulary 3D affordance prediction into the manipulation data generation pipeline. AffordSim uses our VoxAfford model, an open-vocabulary 3D affordance detector that enhances MLLM output tokens with multi-scale geometric features, to predict affordance maps on object point clouds, guiding grasp pose estimation toward task-relevant functional regions. Built on NVIDIA Isaac Sim with cross-embodiment support (Franka FR3, Panda, UR5e, Kinova), VLM-powered task generation, and novel domain randomization using DA3-based 3D Gaussian reconstruction from real photographs, AffordSim enables automated, scalable generation of affordance-aware manipulation data. We establish a benchmark of 50 tasks across 7 categories (grasping, placing, stacking, pushing/pulling, pouring, mug hanging, long-horizon composite) and evaluate 4 imitation learning baselines (BC, Diffusion Policy, ACT, Pi 0.5). Our results reveal that while grasping is largely solved (53-93% success), affordance-demanding tasks such as pouring into narrow containers (1-43%) and mug hanging (0-47%) remain significantly more challenging for current imitation learning methods, highlighting the need for affordance-aware data generation. Zero-shot sim-to-real experiments on a real Franka FR3 validate the transferability of the generated data.

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理