Active Learning MPC Objective Functions from Preferences
作者: Hasna El Hasnaouy, Pablo Krupa, Mario Zanon, Alberto Bemporad
分类: eess.SY
发布日期: 2026-05-15
备注: (6 pages, 3 figures)
💡 一句话要点
提出主动学习MPC目标函数学习方法,通过偏好学习提升控制性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 模型预测控制 偏好学习 主动学习 目标函数学习 人机交互
📋 核心要点
- MPC目标函数设计依赖人类经验,但人工评估成本高昂且效率低下。
- 利用主动学习策略,通过少量偏好查询学习MPC目标函数,提升采样效率。
- 提出基于池和查询合成两种策略,实验证明能用更少查询获得更好控制效果。
📝 摘要(中文)
在模型预测控制(MPC)中,当性能评估标准只能从人类判断中获得时,设计目标函数是一项具有挑战性的任务。本文采用基于偏好的学习(PbL)方法,从轨迹对的偏好中学习MPC目标函数。然而,PbL的实际应用通常受到人类偏好查询的显著成本或有限可用性的限制。为了解决这个问题,主动学习(AL)策略旨在提高采样效率,减少获得良好性能分类器所需的标注工作。本文提出了两种AL策略,用于从成对系统轨迹的人类偏好中学习MPC目标函数:一种基于池的策略,选择在当前代理模型下不确定且相对于先前标记的比较具有多样性的轨迹对;以及一种查询合成策略,该策略使用当前代理驱动的MPC合并新轨迹。数值结果表明,与随机抽样方法相比,所提出的策略以更少的查询次数产生更符合表达偏好的闭环行为。
🔬 方法详解
问题定义:论文旨在解决模型预测控制(MPC)中目标函数难以设计的问题,尤其是在性能评估依赖于人类主观判断的情况下。传统的MPC目标函数设计需要专家知识和大量的手动调整,而基于偏好的学习(PbL)虽然可以从人类反馈中学习目标函数,但需要大量的偏好查询,这在实际应用中成本很高,限制了其应用。
核心思路:论文的核心思路是利用主动学习(AL)策略,智能地选择信息量最大的轨迹对进行偏好查询,从而在尽可能少的查询次数下,学习到一个能够反映人类偏好的MPC目标函数。通过减少人工标注的需求,降低了PbL在MPC目标函数设计中的应用成本。
技术框架:整体框架包含以下几个主要模块:1) 轨迹生成模块:生成用于比较的轨迹对。2) 主动学习模块:根据当前学习到的目标函数,选择或合成最有价值的轨迹对进行偏好查询。3) 偏好学习模块:接收人类的偏好反馈,更新目标函数的代理模型。4) MPC控制器:使用学习到的目标函数进行控制。该流程迭代进行,直到学习到满意的目标函数。
关键创新:论文的关键创新在于提出了两种针对MPC目标函数学习的主动学习策略:一是基于池的主动学习策略,该策略选择在当前代理模型下不确定性高且与已标记数据差异大的轨迹对;二是查询合成策略,该策略利用当前代理模型驱动的MPC来生成新的轨迹,从而主动探索更有价值的轨迹空间。这两种策略都旨在提高查询效率,减少人工标注负担。
关键设计:基于池的策略中,不确定性通过代理模型预测偏好概率的方差来衡量,多样性通过计算轨迹对之间的距离来衡量。查询合成策略中,使用当前学习到的目标函数作为MPC的优化目标,生成新的轨迹,并将其与已有的轨迹进行比较。具体的参数设置包括代理模型的选择(例如高斯过程)、不确定性和多样性的权重系数等。损失函数通常采用交叉熵损失,用于训练代理模型,使其能够准确预测人类的偏好。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与随机抽样方法相比,所提出的主动学习策略能够以更少的查询次数学习到更符合人类偏好的MPC目标函数。具体而言,在相同的查询次数下,使用主动学习策略的闭环控制性能显著优于随机抽样,并且能够更快地收敛到期望的控制行为。量化指标(具体数值未知)显示,主动学习策略在减少查询次数的同时,保证了控制性能。
🎯 应用场景
该研究成果可应用于机器人、自动驾驶、过程控制等领域,尤其适用于那些难以用数学公式精确描述控制目标,而需要依赖人类经验进行调整的场景。通过主动学习,可以显著降低人工干预成本,提高控制系统的智能化水平和适应性,加速相关技术的落地应用。
📄 摘要(原文)
Designing the objective function in Model Predictive Control (MPC) is challenging when performance assessment criteria are available only from human judgment. We adopt a preference-based learning (PbL) approach to learn the MPC objective function from preferences over trajectory pairs. However, the real-world application of PbL is often restricted by the significant cost or limited availability of human preference queries. To address this, Active Learning (AL) strategies seek to improve sampling efficiency, reducing the labeling effort required to obtain a well-performing classifier. We present two AL strategies for learning the MPC objective function from human preferences over pairwise system trajectories: a pool-based strategy that selects trajectory pairs that are both uncertain under the current surrogate and diverse relative to previously labeled comparisons, and a query-synthesis strategy that incorporates new trajectories using the current surrogate-driven MPC. Numerical results show that the proposed strategies yield closed-loop behaviors that align more with the expressed preference using fewer number of queries compared to a random sampling approach.