Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds

📄 arXiv: 2405.16439v3 📥 PDF

作者: Rohan Chandra, Haresh Karnan, Negar Mehr, Peter Stone, Joydeep Biswas

分类: cs.RO, cs.AI, cs.LG, cs.MA

发布日期: 2024-05-26 (更新: 2025-03-26)


💡 一句话要点

提出一种多智能体逆强化学习算法,用于真实世界非结构化人群中的社会机器人导航。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体逆强化学习 人群导航 社会机器人 轨迹预测 最大熵 行为意图 人机交互

📋 核心要点

  1. 现有方法难以在密集人群中同时学习多个智能体的奖励函数,因为人群交互复杂且紧密耦合。
  2. 提出一种新的多智能体最大熵逆强化学习算法,通过易处理性-合理性权衡技巧,在精度和计算复杂度之间取得平衡。
  3. 在Speedway数据集上,该方法优于单智能体IRL,并在ETH/UCY等数据集上与先进的Transformer模型具有竞争力。

📝 摘要(中文)

在大学校园、餐厅、超市和医院等拥挤的公共场所进行社会机器人导航是一个日益重要的研究领域。实现这一目标的核心策略之一是通过学习人类的奖励函数来理解他们的意图,这通常通过逆强化学习(IRL)来实现。尽管IRL取得了显著进展,但由于这些场景中紧密耦合的社会互动(例如,通过、交叉、转向、编织等)的性质,在密集非结构化行人人群中同时学习多个智能体的奖励函数仍然难以处理。本文提出了一种新的用于真实世界非结构化行人人群的多智能体最大熵逆强化学习算法。我们方法的关键是一个简单但有效的数学技巧,我们称之为所谓的易处理性-合理性权衡技巧,它以略微降低精度为代价来实现易处理性。我们将我们的方法与经典的单智能体MaxEnt IRL以及最先进的轨迹预测方法在包括ETH、UCY、SCAND、JRDB和一个新的名为Speedway的数据集上进行了比较,该数据集收集于大学校园繁忙的十字路口,专注于密集、复杂的智能体交互。我们的主要发现表明,在密集的Speedway数据集上,我们的方法在排名前7的基线中排名第一,比单智能体IRL提高了2倍以上,并且在较稀疏的数据集(如ETH/UCY)上与最先进的基于大型Transformer的编码器-解码器模型具有竞争力(在排名前7的基线中排名第三)。

🔬 方法详解

问题定义:论文旨在解决在真实世界非结构化人群中,如何有效地学习多个智能体的奖励函数的问题。现有单智能体IRL方法无法有效处理人群中复杂的社会互动,而直接应用多智能体IRL方法则面临计算复杂度过高的问题。因此,需要一种既能捕捉多智能体交互,又能保证计算可行的IRL方法。

核心思路:论文的核心思路是引入一个“易处理性-合理性权衡”技巧。该技巧通过对智能体之间的交互进行简化,降低了计算复杂度,使得多智能体IRL在实际场景中变得可行。虽然这种简化可能会略微降低精度,但它显著提高了算法的效率,使其能够处理大规模的人群数据。

技术框架:该算法基于最大熵逆强化学习(MaxEnt IRL)框架。整体流程包括:1) 数据收集:从真实世界的人群场景中收集轨迹数据;2) 特征提取:提取描述智能体行为的特征;3) 奖励函数学习:使用提出的多智能体MaxEnt IRL算法,学习每个智能体的奖励函数;4) 轨迹预测:使用学习到的奖励函数,预测智能体的未来轨迹。

关键创新:最重要的技术创新点是“易处理性-合理性权衡”技巧。该技巧通过对智能体之间的交互进行建模的简化,使得多智能体IRL算法在计算上变得可行,从而能够应用于大规模的真实世界人群场景。这与传统的单智能体IRL方法和计算复杂度高的多智能体IRL方法形成了鲜明对比。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。这些细节可能在补充材料或后续工作中给出。损失函数应该与最大熵逆强化学习的目标一致,即最大化观测到的轨迹的概率。具体的网络结构(如果使用)和参数设置可能需要根据具体的数据集和场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Speedway数据集上,该方法在排名前7的基线中排名第一,比单智能体IRL提高了2倍以上。在ETH/UCY等较稀疏的数据集上,该方法与最先进的基于大型Transformer的编码器-解码器模型具有竞争力(在排名前7的基线中排名第三)。这些结果表明,该方法在处理密集人群场景方面具有显著优势。

🎯 应用场景

该研究成果可应用于社会机器人导航、自动驾驶、人群行为分析和交通流量优化等领域。通过理解人群中个体的行为意图,机器人和自动驾驶车辆可以更好地与人类互动,提高导航的安全性和效率。此外,该技术还可以用于分析人群行为模式,为城市规划和公共安全提供决策支持。

📄 摘要(原文)

Social robot navigation in crowded public spaces such as university campuses, restaurants, grocery stores, and hospitals, is an increasingly important area of research. One of the core strategies for achieving this goal is to understand humans' intent--underlying psychological factors that govern their motion--by learning their reward functions, typically via inverse reinforcement learning (IRL). Despite significant progress in IRL, learning reward functions of multiple agents simultaneously in dense unstructured pedestrian crowds has remained intractable due to the nature of the tightly coupled social interactions that occur in these scenarios \textit{e.g.} passing, intersections, swerving, weaving, etc. In this paper, we present a new multi-agent maximum entropy inverse reinforcement learning algorithm for real world unstructured pedestrian crowds. Key to our approach is a simple, but effective, mathematical trick which we name the so-called tractability-rationality trade-off trick that achieves tractability at the cost of a slight reduction in accuracy. We compare our approach to the classical single-agent MaxEnt IRL as well as state-of-the-art trajectory prediction methods on several datasets including the ETH, UCY, SCAND, JRDB, and a new dataset, called Speedway, collected at a busy intersection on a University campus focusing on dense, complex agent interactions. Our key findings show that, on the dense Speedway dataset, our approach ranks 1st among top 7 baselines with >2X improvement over single-agent IRL, and is competitive with state-of-the-art large transformer-based encoder-decoder models on sparser datasets such as ETH/UCY (ranks 3rd among top 7 baselines).