Real2Sim based on Active Perception with automatically VLM-generated Behavior Trees

作者: Alessandro Adami, Sebastian Zudaire, Ruggero Carli, Pietro Falco

分类: cs.RO

发布日期: 2026-01-13

💡 一句话要点

提出基于主动感知和VLM自动生成行为树的Real2Sim框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: Real2Sim 主动感知 行为树 视觉-语言模型 机器人交互

📋 核心要点

传统Real2Sim方法依赖手动测量或预编程探索，难以适应不同任务和用户意图。
该论文提出利用视觉-语言模型自动生成行为树，驱动机器人进行特定任务的物理交互，从而估计仿真所需参数。
实验表明，该方法可在多种场景下有效估计物体质量、表面高度和摩擦等参数，即使存在遮挡或模型不完整。

📝 摘要（中文）

构建精确的真实世界环境仿真模型需要可靠地估计物理参数，如质量、几何形状、摩擦和接触面。传统的Real2Sim流程依赖于手动测量或固定的、预编程的探索程序，这限制了它们对不同任务和用户意图的适应性。本文提出了一种Real2Sim框架，该框架自主生成并执行特定任务的物理交互行为树，以获取给定仿真目标所需的参数，而无需依赖预定义的任务模板或专家设计的探索程序。给定一个高级用户请求、一个不完整的仿真描述和一个场景的RGB观测，视觉-语言模型执行多模态推理，以识别相关对象，推断所需的物理参数，并生成由基本机器人动作组成的结构化行为树。生成的行为在扭矩控制的Franka Emika Panda上执行，从而实现顺从的、富含接触的交互以进行参数估计。获取的测量结果用于自动构建物理感知的仿真。在真实机械臂上的实验结果表明，在多个场景中，包括遮挡对象和不完整的先验模型，可以估计对象质量、表面高度和与摩擦相关的量。所提出的方法实现了可解释的、意图驱动的和自主的Real2Sim流程，将高级推理与物理基础的机器人交互联系起来。

🔬 方法详解

问题定义：现有Real2Sim方法依赖人工或预定义的探索策略，无法根据任务目标自适应地获取物理参数，导致仿真模型精度受限，且泛化能力不足。特别是对于复杂场景和用户特定需求，传统方法难以有效应对。

核心思路：利用视觉-语言模型（VLM）进行多模态推理，将用户意图、场景信息和不完整的仿真模型相结合，自动生成机器人行为树，指导机器人主动与环境交互，获取仿真所需的物理参数。这种方法避免了人工干预和预定义模板的限制，提高了Real2Sim的自适应性和智能化水平。

技术框架：该框架包含以下主要模块：1) VLM推理模块：接收用户请求、场景RGB图像和不完整的仿真描述，识别相关对象，推断所需物理参数。2) 行为树生成模块：根据VLM的推理结果，生成包含基本机器人动作的结构化行为树。3) 机器人执行模块：在扭矩控制的Franka Emika Panda机器人上执行行为树，进行接触丰富的物理交互。4) 参数估计模块：根据机器人交互过程中采集的数据，估计对象的物理参数。5) 仿真模型构建模块：利用估计的物理参数，自动构建物理感知的仿真模型。

关键创新：该方法的核心创新在于利用VLM自动生成机器人行为树，实现意图驱动的主动感知。与传统方法相比，该方法无需预定义任务模板或专家设计的探索程序，能够根据用户需求和场景特点自适应地生成交互策略，从而更有效地获取仿真所需的物理参数。

关键设计：VLM采用预训练的视觉-语言模型，通过微调使其能够理解用户意图，识别场景中的对象，并推断所需的物理参数。行为树采用模块化设计，包含一系列基本机器人动作，如移动、抓取、推动等。参数估计采用卡尔曼滤波等方法，根据机器人交互过程中采集的力、位移等数据，估计对象的质量、摩擦系数等参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够在多个场景下有效估计物体质量、表面高度和摩擦等参数，即使存在遮挡对象和不完整的先验模型。例如，在估计物体质量时，该方法能够达到较高的精度，并且能够处理不同形状和材质的物体。此外，该方法还能够根据用户意图，自适应地调整交互策略，从而更有效地获取所需的物理参数。

🎯 应用场景

该研究成果可应用于机器人仿真、虚拟环境构建、物理参数估计等领域。例如，可以用于快速构建机器人训练环境，提高机器人在真实世界中的适应性；也可以用于虚拟现实和增强现实应用，提供更逼真的物理交互体验；还可以用于工业自动化领域，实现对生产线设备的精确建模和控制。

📄 摘要（原文）

Constructing an accurate simulation model of real-world environments requires reliable estimation of physical parameters such as mass, geometry, friction, and contact surfaces. Traditional real-to-simulation (Real2Sim) pipelines rely on manual measurements or fixed, pre-programmed exploration routines, which limit their adaptability to varying tasks and user intents. This paper presents a Real2Sim framework that autonomously generates and executes Behavior Trees for task-specific physical interactions to acquire only the parameters required for a given simulation objective, without relying on pre-defined task templates or expert-designed exploration routines. Given a high-level user request, an incomplete simulation description, and an RGB observation of the scene, a vision-language model performs multi-modal reasoning to identify relevant objects, infer required physical parameters, and generate a structured Behavior Tree composed of elementary robotic actions. The resulting behavior is executed on a torque-controlled Franka Emika Panda, enabling compliant, contact-rich interactions for parameter estimation. The acquired measurements are used to automatically construct a physics-aware simulation. Experimental results on the real manipulator demonstrate estimation of object mass, surface height, and friction-related quantities across multiple scenarios, including occluded objects and incomplete prior models. The proposed approach enables interpretable, intent-driven, and autonomously Real2Sim pipelines, bridging high-level reasoning with physically-grounded robotic interaction.

Real2Sim based on Active Perception with automatically VLM-generated Behavior Trees

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理