Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL
作者: Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit Roy-Chowdhury
分类: cs.LG
发布日期: 2026-03-30
备注: Accepted at ICRA 2026. Project page:https://roved-icra-2026.github.io/
💡 一句话要点
ROVED:结合视觉-语言嵌入与选择性Oracle反馈,降低基于偏好强化学习的标注成本
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 偏好强化学习 视觉-语言嵌入 机器人操作 主动学习 不确定性估计
📋 核心要点
- 基于偏好的强化学习依赖大量人工标注,成本高昂,限制了其应用范围。
- ROVED结合视觉-语言嵌入的低成本和Oracle反馈的准确性,通过不确定性过滤选择性地使用Oracle。
- 实验表明,ROVED在多个机器人操作任务中显著降低了Oracle查询次数,并实现了跨任务泛化。
📝 摘要(中文)
基于偏好的强化学习可以通过比较来学习有效的奖励函数,但其可扩展性受到Oracle反馈高成本的限制。轻量级的视觉-语言嵌入(VLE)模型提供了一种更廉价的替代方案,但其噪声输出限制了它们作为独立奖励生成器的有效性。为了解决这个问题,我们提出了ROVED,一个混合框架,它结合了基于VLE的监督和有针对性的Oracle反馈。我们的方法使用VLE生成分割级别的偏好,并且仅对具有高不确定性的样本求助于Oracle,这些样本通过过滤机制识别。此外,我们引入了一种参数高效的微调方法,该方法使用获得的Oracle反馈来调整VLE,以便以协同方式随着时间的推移改进模型。这确保了嵌入的可扩展性和Oracle的准确性,同时避免了它们的低效率。在多个机器人操作任务中,ROVED匹配或超过了先前的基于偏好的方法,同时减少了高达80%的Oracle查询。值得注意的是,经过调整的VLE可以跨任务泛化,从而节省高达90%的累积标注成本,突出了结合可扩展嵌入和精确Oracle监督进行基于偏好的强化学习的实用性。
🔬 方法详解
问题定义:基于偏好的强化学习(Preference-based Reinforcement Learning, PbRL)旨在通过人类对轨迹片段的偏好来学习奖励函数,从而指导智能体的行为。然而,获取人类偏好需要大量的人工标注,这成为PbRL应用的主要瓶颈。现有的视觉-语言嵌入(Vision-Language Embedding, VLE)模型虽然可以提供廉价的偏好信息,但其输出通常带有噪声,直接用作奖励信号效果不佳。
核心思路:ROVED的核心思想是结合VLE的低成本和Oracle(人类专家)反馈的准确性,通过一种选择性的反馈机制,只在VLE模型不确定的情况下才向Oracle请求反馈。这样既能利用VLE模型降低标注成本,又能保证学习到的奖励函数的准确性。同时,利用Oracle反馈对VLE模型进行微调,进一步提升VLE模型的性能,形成正向循环。
技术框架:ROVED框架主要包含以下几个模块:1) VLE偏好生成器:利用预训练的VLE模型,对轨迹片段生成偏好预测。2) 不确定性过滤模块:评估VLE偏好预测的不确定性,并根据设定的阈值决定是否向Oracle请求反馈。3) Oracle反馈模块:在VLE模型不确定的情况下,向Oracle请求偏好标注。4) VLE微调模块:利用Oracle反馈对VLE模型进行微调,提升其偏好预测的准确性。5) 强化学习智能体:使用学习到的奖励函数训练智能体。
关键创新:ROVED的关键创新在于:1) 提出了一种混合的反馈机制,结合了VLE的低成本和Oracle的准确性,显著降低了标注成本。2) 引入了一种参数高效的微调方法,利用Oracle反馈对VLE模型进行持续改进,提升了VLE模型的泛化能力。3) 通过不确定性过滤机制,实现了对Oracle反馈的有效利用,避免了不必要的标注。
关键设计:ROVED的关键设计包括:1) 不确定性度量:使用VLE模型输出的概率分布的熵来衡量其不确定性。2) 微调策略:采用参数高效的微调方法,只更新VLE模型的部分参数,避免过拟合。3) 损失函数:使用交叉熵损失函数来训练VLE模型,目标是最小化VLE预测的偏好与Oracle标注的偏好之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ROVED在多个机器人操作任务中,与现有的基于偏好的强化学习方法相比,能够减少高达80%的Oracle查询次数,同时保持或超过原有的性能。更重要的是,经过ROVED微调的VLE模型具有良好的跨任务泛化能力,可以节省高达90%的累积标注成本。
🎯 应用场景
ROVED适用于需要大量人工标注的强化学习任务,例如机器人操作、自动驾驶、游戏AI等。通过降低标注成本,ROVED可以加速这些领域的智能化进程,并使得复杂的强化学习任务更容易实现。ROVED的跨任务泛化能力使其在多任务学习场景中具有更大的潜力,可以显著降低新任务的标注成本。
📄 摘要(原文)
Preference-based reinforcement learning can learn effective reward functions from comparisons, but its scalability is constrained by the high cost of oracle feedback. Lightweight vision-language embedding (VLE) models provide a cheaper alternative, but their noisy outputs limit their effectiveness as standalone reward generators. To address this challenge, we propose ROVED, a hybrid framework that combines VLE-based supervision with targeted oracle feedback. Our method uses the VLE to generate segment-level preferences and defers to an oracle only for samples with high uncertainty, identified through a filtering mechanism. In addition, we introduce a parameter-efficient fine-tuning method that adapts the VLE with the obtained oracle feedback in order to improve the model over time in a synergistic fashion. This ensures the retention of the scalability of embeddings and the accuracy of oracles, while avoiding their inefficiencies. Across multiple robotic manipulation tasks, ROVED matches or surpasses prior preference-based methods while reducing oracle queries by up to 80%. Remarkably, the adapted VLE generalizes across tasks, yielding cumulative annotation savings of up to 90%, highlighting the practicality of combining scalable embeddings with precise oracle supervision for preference-based RL.