Leveraging Human Feedback for Semantically-Relevant Skill Discovery

作者: Maxence Hussonnois, Thommen George Karimpanal, Santu Rana

分类: cs.LG, cs.AI

发布日期: 2026-04-27

备注: Accepted at the 28th International Conference on Pattern Recognition (ICPR 2026)

💡 一句话要点

提出语义相关技能发现(SRSD)，利用人类反馈提升强化学习技能发现的语义多样性和相关性。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 技能发现 人类反馈 语义标签 人机交互

📋 核心要点

现有无监督技能发现方法可能产生不安全或与人类目标不一致的行为，需要加以约束。
论文提出语义标签方法，利用人类认知能力标注有意义的行为，提高反馈效率。
实验表明，提出的SRSD方法能够提升技能的语义多样性和相关性，并有效扩展到多种行为。

📝 摘要（中文）

强化学习中的无监督技能发现旨在激发智能体发现多样且有用的行为。然而，无约束的方法可能产生不安全、不道德或未对齐的行为。为了降低这些风险并提高发现技能的实际价值，最近的研究通过利用人类偏好反馈来约束发现过程。然而，基于偏好的方法反馈效率低下，并且本质上不适合处理由跑步、跳跃、行走等各种不同技能组成的技能空间。为了克服这个限制，我们引入了语义标签，这是一种新颖且反馈高效的方法，它利用人类的认知优势来识别和标记语义上有意义的行为。基于语义标签，我们提出了语义相关技能发现（SRSD），这是一种新颖的人在环方法，它从人类反馈中收集语义标签，并学习奖励函数以鼓励技能更具语义多样性和相关性。通过在2D导航环境和四个运动环境中的实验，我们证明了SRSD可以提高语义多样性并发现相关行为，同时有效地扩展到各种行为。

🔬 方法详解

问题定义：现有的基于人类偏好的强化学习技能发现方法，在处理包含多种不同技能的复杂技能空间时，存在反馈效率低下的问题。智能体难以区分和学习语义上不同的技能，例如跑步、跳跃和行走等，导致技能发现的效率和质量受限。

核心思路：论文的核心思路是引入语义标签，利用人类的认知能力来识别和标记智能体产生的行为，从而为技能发现过程提供更丰富和有意义的反馈。通过学习与这些语义标签相关的奖励函数，智能体可以更好地理解和区分不同的技能，从而提高技能发现的效率和质量。

技术框架：SRSD方法包含以下主要模块：1) 智能体探索环境并生成行为轨迹；2) 人类观察智能体的行为轨迹，并为其分配语义标签；3) 基于人类提供的语义标签，学习一个奖励函数，该奖励函数能够区分不同的语义标签；4) 使用学习到的奖励函数来训练智能体，鼓励其发现更多样化和相关的技能。整个过程是一个人机交互的循环，通过不断地收集人类反馈和更新奖励函数，智能体可以逐步学习到更符合人类期望的技能。

关键创新：SRSD的关键创新在于引入了语义标签的概念，并将其应用于强化学习技能发现中。与传统的基于偏好的方法相比，语义标签能够提供更丰富和明确的反馈信息，从而提高反馈效率和技能发现的质量。此外，SRSD方法还能够有效地处理包含多种不同技能的复杂技能空间，使其更具通用性和实用性。

关键设计：SRSD的关键设计包括：1) 如何有效地收集和利用人类提供的语义标签；2) 如何设计奖励函数，使其能够准确地反映不同语义标签之间的差异；3) 如何平衡智能体的探索和利用，以避免陷入局部最优解。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SRSD方法在2D导航和四个运动环境中均能显著提高技能的语义多样性和相关性。与基线方法相比，SRSD能够发现更多样化和有意义的行为，并且能够有效地扩展到各种不同的技能。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于机器人控制、游戏AI、自动驾驶等领域。例如，可以让人工智能体学习执行各种复杂的任务，如导航、操作、交互等，并确保其行为符合人类的期望和价值观。通过人机协作，可以更有效地开发出安全、可靠和实用的智能系统。

📄 摘要（原文）

Unsupervised skill discovery in reinforcement learning aims to intrinsically motivate agents to discover diverse and useful behaviours. However, unconstrained approaches can produce unsafe, unethical, or misaligned behaviours. To mitigate these risks and improve the practical desireability of discovered skills, recent work grounds the discovery process by leveraging human preference feedback. However, preference-based approaches are feedback-inefficient and inherently ill-equipped to deal with skill spaces composed of a variety of different skills such as running, jumping, walking, etc. To overcome this limitation, we introduce semantic labelling, a novel and feedback-efficient approach that leverages human cognitive strengths to identify and label semantically meaningful behaviours. Based on semantic labelling, we propose Semantically Relevant Skill Discovery (SRSD), a novel human-in-the-loop approach that collects semantic labels from human feedback and learns a reward function to encourage skills to be more semantically diverse and relevant. Through our experiments in a 2D navigation environment and four locomotion environments, we demonstrate that SRSD can improve semantic diversity and discover relevant behaviours while scaling effectively to a large variety of behaviours.

Leveraging Human Feedback for Semantically-Relevant Skill Discovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理