RLSLM: A Hybrid Reinforcement Learning Framework Aligning Rule-Based Social Locomotion Model with Human Social Norms

作者: Yitian Kou, Yihe Gu, Chen Zhou, DanDan Zhu, Shuguang Kuai

分类: cs.AI

发布日期: 2025-11-14

备注: AAAI 2026

💡 一句话要点

提出RLSLM混合强化学习框架，融合规则模型与人类社交规范，提升社交导航Agent的用户体验。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 社交导航 强化学习 人机交互 社交运动模型 用户体验

📋 核心要点

现有基于规则的社交导航方法缺乏泛化性和灵活性，而数据驱动的方法效率低、不透明，难以与人类直觉对齐。
RLSLM将基于规则的社交运动模型融入强化学习奖励函数，利用社交舒适度场引导Agent学习符合人类社交规范的行为。
VR实验表明，RLSLM在用户体验上优于现有规则模型，且消融实验证明其可解释性优于传统数据驱动方法。

📝 摘要（中文）

本文提出了一种混合强化学习框架RLSLM，旨在使Agent在人群环境中导航时更符合人类社交习惯。该框架将基于规则的社交运动模型集成到强化学习的奖励函数中。社交运动模型基于行为实验，生成一个方向敏感的社交舒适度场，量化空间中人类的舒适程度，从而实现符合社交规范的导航策略，并减少训练量。RLSLM联合优化机械能和社交舒适度，使Agent能够避免侵入个人或群体空间。基于VR的实验表明，RLSLM在用户体验方面优于最先进的基于规则的模型。消融和敏感性分析进一步表明，该模型比传统的数据驱动方法具有显著提高的可解释性。这项工作提出了一种可扩展的、以人为中心的方法，有效地整合了认知科学和机器学习，用于现实世界的社交导航。

🔬 方法详解

问题定义：现有社交导航方法要么依赖于预定义的规则，泛化性差，无法适应复杂环境；要么依赖于大量数据训练，效率低，且学习到的策略难以解释，无法保证符合人类社交规范。因此，需要一种方法，既能保证策略的合理性，又能提高泛化能力和效率。

核心思路：RLSLM的核心思路是将人类的社交规范融入到强化学习的奖励函数中，通过一个基于规则的社交运动模型来量化Agent行为的社交舒适度，并将其作为奖励的一部分，引导Agent学习符合人类社交习惯的导航策略。这样既可以利用规则模型的先验知识，提高学习效率，又可以通过强化学习来提高策略的泛化能力。

技术框架：RLSLM框架包含以下几个主要模块：1) 环境模拟器：模拟人群环境，包括静态障碍物和动态行人。2) 社交运动模型：基于心理学原理，生成一个方向敏感的社交舒适度场，量化Agent在不同位置和方向上的社交舒适度。3) 强化学习Agent：使用深度强化学习算法（如PPO）学习导航策略。4) 奖励函数：结合机械能消耗和社交舒适度，引导Agent学习高效且符合社交规范的导航策略。

关键创新：RLSLM的关键创新在于将基于规则的社交运动模型与强化学习相结合，利用社交舒适度场作为奖励信号，引导Agent学习符合人类社交规范的行为。这种混合方法既能保证策略的合理性，又能提高泛化能力和效率。与现有方法相比，RLSLM具有更高的可解释性和更好的用户体验。

关键设计：社交舒适度场的设计是关键。它基于人类行为实验数据，考虑了Agent与行人之间的距离、角度、速度等因素，并使用高斯函数来建模社交舒适度。奖励函数的设计也至关重要，需要平衡机械能消耗和社交舒适度之间的权重。此外，强化学习算法的选择和参数调整也会影响最终的性能。

🖼️ 关键图片

📊 实验亮点

VR实验结果表明，RLSLM在用户体验方面显著优于state-of-the-art的基于规则的模型。具体来说，用户对RLSLM控制的Agent的舒适度评分更高，认为其行为更自然、更符合社交规范。消融实验表明，社交舒适度场对Agent行为的影响显著，能够有效避免Agent侵入个人或群体空间。敏感性分析表明，RLSLM对参数变化具有一定的鲁棒性，能够适应不同的环境和人群密度。

🎯 应用场景

RLSLM可应用于各种需要与人类交互的机器人场景，如商场导览机器人、医院服务机器人、智能家居助手等。通过学习符合人类社交规范的导航策略，可以提高机器人的用户体验，增强人机协作的效率和安全性。该研究也为其他需要考虑人类因素的机器人任务提供了借鉴，例如人机协作、自动驾驶等。

📄 摘要（原文）

Navigating human-populated environments without causing discomfort is a critical capability for socially-aware agents. While rule-based approaches offer interpretability through predefined psychological principles, they often lack generalizability and flexibility. Conversely, data-driven methods can learn complex behaviors from large-scale datasets, but are typically inefficient, opaque, and difficult to align with human intuitions. To bridge this gap, we propose RLSLM, a hybrid Reinforcement Learning framework that integrates a rule-based Social Locomotion Model, grounded in empirical behavioral experiments, into the reward function of a reinforcement learning framework. The social locomotion model generates an orientation-sensitive social comfort field that quantifies human comfort across space, enabling socially aligned navigation policies with minimal training. RLSLM then jointly optimizes mechanical energy and social comfort, allowing agents to avoid intrusions into personal or group space. A human-agent interaction experiment using an immersive VR-based setup demonstrates that RLSLM outperforms state-of-the-art rule-based models in user experience. Ablation and sensitivity analyses further show the model's significantly improved interpretability over conventional data-driven methods. This work presents a scalable, human-centered methodology that effectively integrates cognitive science and machine learning for real-world social navigation.

RLSLM: A Hybrid Reinforcement Learning Framework Aligning Rule-Based Social Locomotion Model with Human Social Norms

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理