SERNF: Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows
作者: Chenyu Yang, Denis Tarasov, Davide Liconti, Hehui Zheng, Robert K. Katzschmann
分类: cs.RO, cs.LG
发布日期: 2026-04-07
💡 一句话要点
SERNF:基于动作块评论家和归一化流的高效真实世界灵巧策略微调
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 灵巧操作 策略微调 归一化流 动作块评论家 样本效率 机器人学习 多模态动作
📋 核心要点
- 现有灵巧操作策略微调方法在真实世界中面临样本效率低和动作分布多模态的挑战。
- SERFN利用归一化流处理多模态动作分布,并设计动作块评论家以改善长时程信用分配。
- SERFN在真实机器人任务中表现出优异的样本效率和稳定性,优于标准方法。
📝 摘要(中文)
由于真实世界交互预算有限和高度多模态的动作分布,灵巧操作策略的真实世界微调仍然具有挑战性。基于扩散的策略虽然具有表达性,但由于动作概率难以处理,因此不允许在微调期间进行保守的基于似然的更新。相比之下,传统的 Gaussian 策略在多模态下会崩溃,尤其是在动作以块的形式执行时,并且标准的分步评论家无法与分块执行对齐,从而导致不良的信用分配。我们提出了 SERFN,一个具有归一化流 (NF) 的高效离线策略微调框架,以应对这些挑战。归一化流策略为多模态动作块产生精确的似然,允许通过似然正则化进行保守、稳定的策略更新,从而提高样本效率。动作块评论家评估整个动作序列,使价值估计与策略的时间结构对齐,并改善长时程信用分配。据我们所知,这是首次在真实机器人硬件上演示基于似然的多模态生成策略与块级别价值学习的结合。我们在两个具有挑战性的真实世界灵巧操作任务上评估 SERFN:用从盒子中取出的剪刀剪胶带,以及手掌朝下的抓取方式进行手中立方体旋转——这两者都需要在很长的时间范围内进行精确、灵巧的控制。在这些任务中,SERFN 实现了稳定、高效的自适应,而标准方法难以做到。
🔬 方法详解
问题定义:论文旨在解决真实世界灵巧操作策略微调中样本效率低下的问题。现有方法,如基于扩散模型的策略,难以进行保守的似然更新;而高斯策略在处理多模态动作分布时容易崩溃。此外,传统的分步评论家无法有效评估分块执行的动作序列,导致信用分配不准确。
核心思路:SERFN的核心思路是结合归一化流(Normalizing Flow, NF)和动作块评论家(Action-Chunked Critic)来解决上述问题。归一化流能够精确建模多模态动作分布,从而实现基于似然的保守策略更新,提高样本效率。动作块评论家则能够评估整个动作序列,与策略的时间结构对齐,改善长时程信用分配。
技术框架:SERFN框架包含以下主要模块:1) 归一化流策略:用于生成动作序列,并提供精确的似然估计;2) 动作块评论家:用于评估整个动作序列的价值,提供更准确的信用分配;3) 离线策略微调算法:利用离线数据,通过似然正则化和动作块评论家的反馈,更新策略参数。整体流程是,首先使用离线数据训练一个初始策略,然后利用SERFN框架在真实世界中进行微调,不断优化策略性能。
关键创新:SERFN的关键创新在于将归一化流策略与动作块评论家相结合,首次在真实机器人硬件上实现了基于似然的多模态生成策略与块级别价值学习。这种结合既能处理多模态动作分布,又能改善长时程信用分配,从而显著提高样本效率和策略稳定性。
关键设计:SERFN的关键设计包括:1) 归一化流策略的具体结构,例如使用哪种类型的归一化流(如RealNVP、Glow等),以及如何设计其网络结构;2) 动作块评论家的设计,例如如何选择合适的网络结构和损失函数,以及如何处理不同长度的动作序列;3) 似然正则化的具体实现方式,例如如何选择正则化系数,以及如何平衡探索和利用。
🖼️ 关键图片
📊 实验亮点
SERFN在真实世界的剪胶带和立方体旋转任务中表现出色,实现了稳定且高效的策略自适应。实验结果表明,SERFN能够显著提高样本效率,优于传统的基于高斯策略的方法。具体性能数据和提升幅度在论文中有详细展示。
🎯 应用场景
SERFN具有广泛的应用前景,可用于各种需要灵巧操作的机器人任务,如工业自动化、医疗手术、家庭服务等。通过高效的策略微调,SERFN能够使机器人在复杂环境中快速适应新任务,提高机器人的自主性和智能化水平,降低开发和部署成本。
📄 摘要(原文)
Real-world fine-tuning of dexterous manipulation policies remains challenging due to limited real-world interaction budgets and highly multimodal action distributions. Diffusion-based policies, while expressive, do not permit conservative likelihood-based updates during fine-tuning because action probabilities are intractable. In contrast, conventional Gaussian policies collapse under multimodality, particularly when actions are executed in chunks, and standard per-step critics fail to align with chunked execution, leading to poor credit assignment. We present SERFN, a sample-efficient off-policy fine-tuning framework with normalizing flow (NF) to address these challenges. The normalizing flow policy yields exact likelihoods for multimodal action chunks, allowing conservative, stable policy updates through likelihood regularization and thereby improving sample efficiency. An action-chunked critic evaluates entire action sequences, aligning value estimation with the policy's temporal structure and improving long-horizon credit assignment. To our knowledge, this is the first demonstration of a likelihood-based, multimodal generative policy combined with chunk-level value learning on real robotic hardware. We evaluate SERFN on two challenging dexterous manipulation tasks in the real world: cutting tape with scissors retrieved from a case, and in-hand cube rotation with a palm-down grasp -- both of which require precise, dexterous control over long horizons. On these tasks, SERFN achieves stable, sample-efficient adaptation where standard methods struggle.