Online Bayesian Learning of Agent Behavior in Differential Games

作者: Francesco Bianchin, Robert Lefringhausen, Sandra Hirche

分类: eess.SY

发布日期: 2026-01-08

💡 一句话要点

提出一种在线贝叶斯方法，用于差分博弈中智能体行为识别。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 贝叶斯学习 差分博弈 智能体行为识别 多智能体系统 在线学习

📋 核心要点

现有方法在多智能体系统中难以快速、准确地识别其他智能体的行为，尤其是在数据有限和噪声干扰的情况下。
该方法将最优控制的Hamilton-Jacobi-Bellman方程转化为线性参数形式，利用贝叶斯方法在线更新智能体行为的后验概率。
实验表明，该方法在预测智能体行为方面表现出色，能够量化预测的不确定性，适用于自适应交互和实时决策。

📝 摘要（中文）

本研究提出了一种在线贝叶斯博弈论方法，用于多智能体动态系统中行为识别。该方法将Hamilton-Jacobi-Bellman最优性条件转化为线性参数残差，从而实现快速的序列贝叶斯更新、不确定性感知的推理以及从有限的噪声数据中进行鲁棒预测，无需历史堆栈。该方法通过基函数展开来适应非线性动力学和非二次值函数，提供灵活的模型。包括线性二次和非线性共享控制场景在内的实验表明，该方法能够进行准确的预测并量化不确定性，突显了其在自适应交互和实时决策中的相关性。

🔬 方法详解

问题定义：在多智能体动态系统中，如何从有限且带有噪声的数据中，快速、准确地识别其他智能体的行为模式，并量化预测的不确定性？现有方法通常需要大量的历史数据，计算复杂度高，难以适应实时性要求高的场景。

核心思路：将智能体的最优控制问题，特别是Hamilton-Jacobi-Bellman (HJB) 方程，转化为线性参数残差的形式。这样，就可以利用贝叶斯方法，在线更新智能体行为的后验概率分布。通过这种方式，可以有效地利用有限的数据，并对预测的不确定性进行建模。

技术框架：该方法的核心流程包括：1) 将HJB方程转化为线性参数残差；2) 利用贝叶斯方法，根据观测到的智能体行为数据，在线更新参数的后验概率；3) 利用更新后的后验概率，预测智能体未来的行为。该框架避免了存储历史数据，降低了计算复杂度，提高了实时性。

关键创新：该方法最重要的创新在于将HJB方程转化为线性参数残差，从而能够利用贝叶斯方法进行在线学习。这种方法避免了对非线性HJB方程的直接求解，大大降低了计算复杂度。此外，该方法还能够量化预测的不确定性，这对于鲁棒决策至关重要。

关键设计：为了适应非线性动力学和非二次值函数，该方法采用了基函数展开。具体来说，可以将值函数表示为一组基函数的线性组合，然后利用贝叶斯方法估计基函数的系数。此外，该方法还需要选择合适的先验分布和似然函数，以便有效地进行贝叶斯更新。参数的选择会影响学习的效率和准确性。

📊 实验亮点

实验结果表明，该方法能够准确预测智能体的行为，并量化预测的不确定性。在包括线性二次和非线性共享控制场景在内的实验中，该方法表现出良好的性能，验证了其在自适应交互和实时决策中的有效性。具体性能数据未知，但强调了准确预测和不确定性量化。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人协作、人机交互等领域。例如，在自动驾驶中，可以利用该方法识别其他车辆的驾驶意图，从而做出更安全、更合理的决策。在机器人协作中，可以利用该方法预测其他机器人的行为，从而实现更高效的协作。在人机交互中，可以利用该方法理解人类用户的意图，从而提供更自然、更友好的交互体验。

📄 摘要（原文）

This work introduces an online Bayesian game-theoretic method for behavior identification in multi-agent dynamical systems. By casting Hamilton-Jacobi-Bellman optimality conditions as linear-in-parameter residuals, the method enables fast sequential Bayesian updates, uncertainty-aware inference, and robust prediction from limited, noisy data-without history stacks. The approach accommodates nonlinear dynamics and nonquadratic value functions through basis expansions, providing flexible models. Experiments, including linear-quadratic and nonlinear shared-control scenarios, demonstrate accurate prediction with quantified uncertainty, highlighting the method's relevance for adaptive interaction and real-time decision making.

Online Bayesian Learning of Agent Behavior in Differential Games

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理