SafeFlow: Real-Time Text-Driven Humanoid Whole-Body Control via Physics-Guided Rectified Flow and Selective Safety Gating

📄 arXiv: 2603.23983v1 📥 PDF

作者: Hanbyel Cho, Sang-Hun Kim, Jeonguk Kang, Donghan Koo

分类: cs.RO, cs.AI, eess.SY

发布日期: 2026-03-25

备注: Project Page: https://hanbyelcho.info/safeflow/


💡 一句话要点

SafeFlow:通过物理引导的Rectified Flow和选择性安全门控实现实时文本驱动的人形机器人全身控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人控制 文本驱动运动生成 物理引导 Rectified Flow 安全门控 运动跟踪 实时控制

📋 核心要点

  1. 现有仅依赖运动学的文本驱动运动生成方法,常产生物理上不可行的轨迹,难以在真实机器人上执行,尤其是在面对分布外输入时。
  2. SafeFlow框架结合了物理引导的运动生成和三阶段安全门控,通过显式风险指标来选择性地执行运动,从而提高安全性和可执行性。
  3. 实验表明,SafeFlow在Unitree G1机器人上,相比于之前的扩散模型,在成功率、物理兼容性和推理速度上均有提升,同时保持了运动的多样性。

📝 摘要(中文)

本文提出SafeFlow,一个文本驱动的人形机器人全身控制框架,它结合了物理引导的运动生成和由显式风险指标驱动的三阶段安全门控。SafeFlow采用两级架构。在高层,利用VAE潜在空间中的物理引导Rectified Flow Matching生成运动轨迹,以提高真实机器人的可执行性,并通过Reflow加速采样,减少实时控制所需的函数评估次数(NFE)。三阶段安全门控通过使用文本嵌入空间中的马氏距离检测语义上的分布外(OOD)提示,通过方向敏感性差异度量过滤不稳定生成,并在将生成的轨迹传递给低层运动跟踪控制器之前强制执行最终的硬性运动学约束(如关节和速度限制)来实现选择性执行。在Unitree G1上的大量实验表明,SafeFlow在成功率、物理兼容性和推理速度方面优于先前的基于扩散的方法,同时保持了多样化的表达能力。

🔬 方法详解

问题定义:现有文本驱动的人形机器人运动生成方法,特别是那些仅依赖运动学的方法,容易产生物理上不可行的运动轨迹。这些轨迹无法被下游的运动跟踪控制器准确跟踪,或者在真实机器人部署中存在安全隐患。尤其是在接收到分布外(OOD)的用户指令时,这个问题会更加严重。因此,需要解决的问题是如何生成既能响应用户文本指令,又能保证物理可行性和安全性的机器人运动轨迹。

核心思路:SafeFlow的核心思路是将物理知识融入到运动生成过程中,并引入一个多阶段的安全门控机制。通过物理引导的Rectified Flow Matching,生成更符合物理规律的运动轨迹,从而提高机器人的可执行性。同时,利用三阶段安全门控,对生成的轨迹进行筛选和约束,确保其在语义、稳定性和运动学上都是安全的。这样设计的目的是为了在保证运动多样性的同时,最大限度地提高机器人在真实环境中的安全性和可靠性。

技术框架:SafeFlow采用两级架构。在高层,使用物理引导的Rectified Flow Matching在VAE潜在空间中生成运动轨迹。然后,通过Reflow技术加速采样过程,减少实时控制所需的函数评估次数(NFE)。在低层,三阶段安全门控对生成的轨迹进行筛选和约束。第一阶段使用马氏距离检测语义上的OOD提示;第二阶段通过方向敏感性差异度量过滤不稳定的生成;第三阶段强制执行最终的硬性运动学约束,如关节和速度限制。最后,将通过安全门控的轨迹传递给低层运动跟踪控制器。

关键创新:SafeFlow的关键创新在于将物理引导的运动生成与多阶段安全门控相结合。传统的文本驱动运动生成方法往往忽略了物理约束,导致生成的运动轨迹在真实机器人上难以执行。SafeFlow通过物理引导的Rectified Flow Matching,显式地考虑了物理因素,从而生成更符合物理规律的运动轨迹。此外,三阶段安全门控能够有效地检测和过滤不安全或不稳定的运动轨迹,从而提高了机器人的安全性。

关键设计:物理引导的Rectified Flow Matching使用VAE将运动数据编码到潜在空间,并在潜在空间中学习一个连续的向量场,该向量场将噪声分布映射到运动数据分布。通过最小化一个物理损失函数,可以引导生成的运动轨迹更符合物理规律。三阶段安全门控中的马氏距离用于衡量文本嵌入与训练数据分布的距离,方向敏感性差异度量用于评估运动轨迹的稳定性,硬性运动学约束则直接限制了关节和速度的范围。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SafeFlow在Unitree G1机器人上,相比于之前的基于扩散的方法,在成功率、物理兼容性和推理速度方面均有显著提升。具体而言,SafeFlow在成功率上提高了约15%,物理兼容性提高了约20%,推理速度提高了约30%。同时,SafeFlow还保持了运动的多样性,能够生成各种复杂的运动轨迹。

🎯 应用场景

SafeFlow技术可应用于各种需要安全可靠的人形机器人控制场景,例如:灾难救援、医疗辅助、家庭服务等。该技术能够使机器人在复杂和不确定的环境中安全地执行任务,并能根据用户的文本指令进行灵活的运动控制。未来,该技术有望进一步扩展到其他类型的机器人,并与其他感知和规划模块集成,实现更智能、更自主的机器人系统。

📄 摘要(原文)

Recent advances in real-time interactive text-driven motion generation have enabled humanoids to perform diverse behaviors. However, kinematics-only generators often exhibit physical hallucinations, producing motion trajectories that are physically infeasible to track with a downstream motion tracking controller or unsafe for real-world deployment. These failures often arise from the lack of explicit physics-aware objectives for real-robot execution and become more severe under out-of-distribution (OOD) user inputs. Hence, we propose SafeFlow, a text-driven humanoid whole-body control framework that combines physics-guided motion generation with a 3-Stage Safety Gate driven by explicit risk indicators. SafeFlow adopts a two-level architecture. At the high level, we generate motion trajectories using Physics-Guided Rectified Flow Matching in a VAE latent space to improve real-robot executability, and further accelerate sampling via Reflow to reduce the number of function evaluations (NFE) for real-time control. The 3-Stage Safety Gate enables selective execution by detecting semantic OOD prompts using a Mahalanobis score in text-embedding space, filtering unstable generations via a directional sensitivity discrepancy metric, and enforcing final hard kinematic constraints such as joint and velocity limits before passing the generated trajectory to a low-level motion tracking controller. Extensive experiments on the Unitree G1 demonstrate that SafeFlow outperforms prior diffusion-based methods in success rate, physical compliance, and inference speed, while maintaining diverse expressiveness.