Unified Noise Steering for Efficient Human-Guided VLA Adaptation

📄 arXiv: 2605.10821v1 📥 PDF

作者: Junjie Lu, Xinyao Qin, Yuhua Jiang, Kaixin Wang, Chuheng Zhang, Bin Liang, Jun Yang, Min Xu, Li Zhao

分类: cs.RO

发布日期: 2026-05-11


💡 一句话要点

提出UniSteer框架,通过动作到噪声的反演实现高效的人机协作VLA模型适应

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人强化学习 扩散模型 人机协作 流匹配 策略适应

📋 核心要点

  1. 现有噪声空间RL方法依赖自主探索,在复杂任务中样本效率低下,且人类反馈通常位于动作空间,难以直接用于噪声空间的策略微调。
  2. UniSteer通过近似动作到噪声的反演技术,将人类纠正动作转化为噪声空间的监督信号,实现了人机协作与强化学习的统一优化。
  3. 实验证明该方法在真实机器人任务中表现卓越,仅需约一小时的交互即可实现从低成功率到高成功率的快速适应。

📝 摘要(中文)

基于扩散模型的视觉-语言-动作(VLA)模型已成为机器人操作的强大先验,但将其适应到真实世界分布仍具挑战。由于机器人强化学习(RL)成本高昂,高效的策略改进至关重要。噪声空间RL通过固定预训练VLA作为去噪生成器,仅更新轻量级噪声预测Actor来降低成本,但其自主探索效率有限。人类纠正干预虽能减轻探索负担,但通常在动作空间提供,而噪声空间微调需要噪声变量的监督。为此,本文提出UniSteer,一种统一的噪声引导框架,通过近似的动作到噪声反演,将人类纠正引导与噪声空间RL相结合。给定人类纠正动作,UniSteer反演冻结的流匹配解码器以恢复噪声目标,为噪声Actor提供监督信号,并与RL优化同步进行。在四项真实世界操作任务中的实验表明,UniSteer比现有的噪声空间RL和动作空间人机协作基线更高效,平均在66分钟内将成功率从20%提升至90%。

🔬 方法详解

问题定义:论文旨在解决机器人领域中预训练VLA模型在真实环境下的快速适应问题。核心痛点在于:纯自主的噪声空间RL探索效率低,而人类提供的动作空间反馈无法直接用于更新噪声预测器。

核心思路:UniSteer的核心思想是建立“动作-噪声”的桥梁。通过利用流匹配(Flow Matching)模型的确定性反演特性,将人类提供的纠正动作映射回噪声空间,从而将人机协作转化为噪声空间的监督学习问题。

技术框架:系统包含三个核心部分:冻结的预训练VLA解码器、轻量级噪声Actor网络、以及反演模块。在训练过程中,系统同时接收来自RL的奖励信号(用于探索)和来自人类纠正动作的反演噪声目标(用于监督引导)。

关键创新:最重要的创新在于提出了“统一噪声引导(Unified Noise Steering)”。它打破了动作空间反馈与噪声空间优化之间的壁垒,使得人类专家能够通过纠正动作直接指导噪声Actor的参数更新,显著提升了策略收敛速度。

关键设计:利用流匹配解码器的可逆性,通过求解常微分方程(ODE)或直接反演计算,将动作空间偏差转化为噪声空间的梯度目标。损失函数由RL策略梯度损失与反演噪声的监督损失加权组成,确保了模型既能从人类经验中学习,又能通过RL进一步优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniSteer在四项真实世界机器人操作任务中表现出显著优势。实验数据显示,该方法在平均66分钟的交互时间内,将任务成功率从20%提升至90%。相比于传统的噪声空间RL和动作空间人机协作基线,UniSteer在样本效率和最终性能上均有显著提升,证明了其在人机协作适应场景下的高效性。

🎯 应用场景

该研究适用于各类需要快速部署和在线微调的机器人操作任务,如家庭服务机器人、工业装配及仓储物流。通过引入人类纠正,该方法大幅降低了机器人学习复杂技能所需的交互时间与成本,为通用机器人从实验室走向真实复杂环境提供了高效的适应范式。

📄 摘要(原文)

Diffusion-based vision-language-action (VLA) models have emerged as strong priors for robotic manipulation, yet adapting them to real-world distributions remains challenging. In particular, on-robot reinforcement learning (RL) is expensive and time-consuming, so effective adaptation depends on efficient policy improvement within a limited budget of real-world interactions. Noise-space RL lowers the cost by keeping the pretrained VLA fixed as a denoising generator while updating only a lightweight actor that predicts the noise. However, its performance is still limited due to inefficient autonomous exploration. Human corrective interventions can reduce this exploration burden, but they are naturally provided in action space, whereas noise-space finetuning requires supervision over noise variables. To address these challenges, we propose UniSteer, a Unified Noise Steering framework that combines human corrective guidance with noise-space RL through approximate action-to-noise inversion. Given a human corrective action, UniSteer inverts the frozen flow-matching decoder to recover a noise target, which provides supervised guidance for the same noise actor that is simultaneously optimized via reinforcement learning. Real-world experiments on diverse manipulation tasks show that UniSteer adapts more efficiently than strong noise-space RL and action-space human-in-the-loop baselines, improving the success rate from 20% to 90% in 66 minutes on average across four real-world adaptation tasks.