Online Bayesian Learning of Agent Behavior in Differential Games

📄 arXiv: 2601.05087v1 📥 PDF

作者: Francesco Bianchin, Robert Lefringhausen, Sandra Hirche

分类: eess.SY

发布日期: 2026-01-08


💡 一句话要点

提出一种在线贝叶斯方法,用于差分博弈中智能体行为识别。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 贝叶斯学习 差分博弈 智能体行为识别 在线学习 多智能体系统

📋 核心要点

  1. 现有方法在多智能体系统中难以快速、准确地识别其他智能体的行为,尤其是在数据有限和噪声干扰的情况下。
  2. 该方法将最优控制的Hamilton-Jacobi-Bellman方程转化为线性参数形式,利用贝叶斯方法在线更新智能体行为的后验概率。
  3. 实验表明,该方法在预测智能体行为方面表现出色,并能有效量化预测的不确定性,适用于自适应交互和实时决策。

📝 摘要(中文)

本研究提出了一种在线贝叶斯博弈论方法,用于多智能体动态系统中智能体行为的识别。该方法将Hamilton-Jacobi-Bellman最优性条件转化为线性参数残差,从而实现快速的序列贝叶斯更新、不确定性感知的推理以及从有限的、噪声数据中进行鲁棒预测,而无需历史堆栈。该方法通过基函数展开来适应非线性动力学和非二次值函数,从而提供灵活的模型。包括线性二次和非线性共享控制场景在内的实验表明,该方法能够进行准确的预测并量化不确定性,突出了该方法在自适应交互和实时决策中的相关性。

🔬 方法详解

问题定义:在多智能体动态系统中,准确识别其他智能体的行为至关重要,这对于预测其意图、进行协同规划和避免冲突至关重要。然而,现有方法通常需要大量的历史数据,并且难以处理非线性动力学和噪声干扰,导致实时性和鲁棒性不足。

核心思路:本研究的核心思路是将智能体的最优控制问题,特别是Hamilton-Jacobi-Bellman (HJB) 方程,转化为一个线性参数回归问题。通过这种转化,可以使用贝叶斯方法在线更新智能体行为的参数,从而实现快速和不确定性感知的行为识别。这种方法避免了对历史数据的依赖,并能有效处理噪声。

技术框架:该方法主要包含以下几个阶段:1) 将连续时间动态博弈离散化;2) 将HJB最优性条件表示为线性参数残差;3) 使用贝叶斯方法(如卡尔曼滤波或其变体)在线更新参数的后验概率;4) 利用更新后的参数进行行为预测和不确定性量化。整个框架允许在智能体交互过程中实时更新对其他智能体行为的理解。

关键创新:该方法最重要的创新在于将HJB方程转化为线性参数形式,从而能够利用贝叶斯方法进行在线学习。与传统的基于优化的方法相比,这种方法计算效率更高,并且能够自然地处理不确定性。此外,该方法通过基函数展开来适应非线性动力学和非二次值函数,使其具有更强的适用性。

关键设计:关键的设计包括:1) 选择合适的基函数来近似非线性动力学和值函数;2) 设计合适的线性参数残差形式,以保证贝叶斯更新的有效性;3) 选择合适的贝叶斯更新方法(如扩展卡尔曼滤波),并调整其参数以平衡预测精度和计算效率;4) 定义合适的奖励函数,以准确反映智能体的目标和约束。

📊 实验亮点

实验结果表明,该方法在预测智能体行为方面具有较高的准确性,并且能够有效量化预测的不确定性。在包括线性二次和非线性共享控制场景在内的实验中,该方法能够从有限的、噪声数据中进行鲁棒预测,突出了其在自适应交互和实时决策中的潜力。

🎯 应用场景

该研究成果可应用于自动驾驶、人机协作机器人、多机器人协同等领域。通过实时识别其他智能体的行为,可以提高系统的安全性、效率和鲁棒性,例如,自动驾驶车辆可以更好地预测其他车辆的行驶轨迹,从而避免碰撞;协作机器人可以更好地理解人类的意图,从而实现更自然的人机交互。

📄 摘要(原文)

This work introduces an online Bayesian game-theoretic method for behavior identification in multi-agent dynamical systems. By casting Hamilton-Jacobi-Bellman optimality conditions as linear-in-parameter residuals, the method enables fast sequential Bayesian updates, uncertainty-aware inference, and robust prediction from limited, noisy data-without history stacks. The approach accommodates nonlinear dynamics and nonquadratic value functions through basis expansions, providing flexible models. Experiments, including linear-quadratic and nonlinear shared-control scenarios, demonstrate accurate prediction with quantified uncertainty, highlighting the method's relevance for adaptive interaction and real-time decision making.