Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

作者: Hao Wang, Joshua Bowden, Colton Crosby, Somil Bansal

分类: cs.RO, cs.AI

发布日期: 2026-05-12

备注: Published at RSS 2026

💡 一句话要点

提出基于Liveness的折扣策略评估方法，解决机械臂操作策略的离线评估偏差问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 离线策略评估 机械臂操作 Liveness 贝尔曼算子 截断偏差

📋 核心要点

现有离线策略评估方法在机械臂操作中面临奖励稀疏、任务进展非单调和有限长度rollout导致的截断偏差等挑战。
论文提出基于liveness的贝尔曼算子，将策略评估视为任务完成问题，生成对有限视界截断具有鲁棒性的保守价值函数。
实验表明，该方法能更准确反映任务进度，显著减少截断偏差，优于TD(0)和蒙特卡罗等传统方法。

📝 摘要（中文）

策略评估是机器人策略开发和部署流程中的一个基本组成部分。在现代操作系统中，这个问题尤其具有挑战性：奖励通常是稀疏的，评估rollout的任务进展通常是非单调的，因为策略表现出恢复行为，并且评估rollout必然是有限长度的。这种有限的长度引入了截断偏差，打破了依赖于贝尔曼方程/最优性原则的标准方法的无限视界假设。在这项工作中，我们提出了一个基于liveness的贝尔曼算子的稀疏奖励离线策略评估框架。我们的公式将策略评估解释为一个任务完成问题，并产生一个保守的固定点价值函数，该函数对有限视界截断具有鲁棒性。我们分析了所提出的算子的理论性质，包括收缩保证，并展示了它如何在减轻截断偏差的同时编码任务进展。我们在两个模拟操作任务中使用视觉-语言-动作模型和扩散策略，以及使用人类演示的布料折叠任务评估了我们的方法。实验结果表明，我们的方法更准确地反映了任务进度，并大大减少了截断偏差，优于传统的基线方法，如TD(0)和蒙特卡罗策略评估。

🔬 方法详解

问题定义：论文旨在解决机械臂操作策略的离线策略评估（Offline Policy Evaluation, OPE）问题。现有方法，如基于贝尔曼方程的方法，依赖于无限视界假设，但在实际的机械臂操作中，奖励通常是稀疏的，任务进展可能非单调（策略可能需要从错误状态恢复），并且评估轨迹的长度是有限的。这种有限长度的轨迹会导致截断偏差，使得评估结果不准确。

核心思路：论文的核心思路是将策略评估问题重新定义为一个“任务完成”问题，并引入基于“liveness”的贝尔曼算子。Liveness在这里指的是系统持续执行任务的能力。通过这种方式，即使在有限的轨迹中，也能更准确地评估策略的性能，并减轻截断偏差。该方法旨在找到一个保守的价值函数，该函数能够反映任务的进展，并且对轨迹的长度不敏感。

技术框架：该方法的核心是一个基于liveness的贝尔曼算子。整体流程如下：1. 从离线数据集中采样状态转移和奖励信息。2. 使用liveness-based贝尔曼算子迭代更新价值函数。3. 价值函数收敛后，即可用于评估策略的性能。该框架的关键在于liveness-based贝尔曼算子的设计，它能够编码任务的进展，并减轻截断偏差。

关键创新：该论文最重要的创新点在于提出了基于liveness的贝尔曼算子，用于离线策略评估。与传统的贝尔曼算子不同，该算子关注的是任务的持续完成能力，而不是简单的奖励最大化。这种方法能够更好地处理稀疏奖励和有限长度轨迹带来的挑战，从而更准确地评估策略的性能。本质区别在于，传统方法关注的是累积奖励，而该方法关注的是任务是否最终完成。

关键设计：Liveness-based贝尔曼算子的具体形式需要根据具体的任务进行设计。一般来说，它会包含一个指示函数，用于判断当前状态是否已经完成了任务。此外，还需要选择合适的折扣因子，以平衡即时奖励和未来奖励之间的关系。论文中可能还涉及价值函数的表示方法（例如，使用神经网络进行函数逼近）以及优化算法的选择。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在模拟的机械臂操作任务（包括视觉-语言-动作模型和扩散策略）以及布料折叠任务中，能够更准确地反映任务进度，并显著减少截断偏差，优于TD(0)和蒙特卡罗策略评估等经典基线方法。具体的性能提升数据（例如，均方误差的降低幅度）需要在论文中查找。

🎯 应用场景

该研究成果可应用于机器人操作策略的离线评估与优化，尤其适用于奖励稀疏、任务复杂的场景，例如自动化装配、物体抓取、布料操作等。通过准确的离线策略评估，可以加速机器人策略的开发和部署，降低试错成本，提升机器人系统的智能化水平。

📄 摘要（原文）

Policy evaluation is a fundamental component of the development and deployment pipeline for robotic policies. In modern manipulation systems, this problem is particularly challenging: rewards are often sparse, task progression of evaluation rollouts are often non-monotonic as the policies exhibit recovery behaviors, and evaluation rollouts are necessarily of finite length. This finite length introduces truncation bias, breaking the infinite-horizon assumptions underlying standard methods relying on Bellman equations/principle of optimality. In this work, we propose a framework for offline policy evaluation from sparse rewards based on a liveness-based Bellman operator. Our formulation interprets policy evaluation as a task-completion problem and yields a conservative fixed-point value function that is robust to finite-horizon truncation. We analyze the theoretical properties of the proposed operator, including contraction guarantees, and show how it encodes task progression while mitigating truncation bias. We evaluate our method on two simulated manipulation tasks using both a Vision-Language-Action model and a diffusion policy, and a cloth folding task using human demonstrations. Empirical results demonstrate that our approach more accurately reflects task progress and substantially reduces truncation bias, outperforming classical baselines such as TD(0) and Monte Carlo policy evaluation.

Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理