Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking

作者: Haotian Xiang, Qin Lu, Yaakov Bar-Shalom

分类: cs.RO, cs.LG

发布日期: 2026-04-07

💡 一句话要点

提出基于贝叶斯专家选择的扩散策略，用于主动多目标跟踪。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 主动多目标跟踪 扩散策略 贝叶斯专家选择 离线上下文bandit 不确定性量化

📋 核心要点

现有主动多目标跟踪方法在策略选择时缺乏不确定性量化，导致策略选择不够鲁棒。
论文提出基于贝叶斯框架的专家选择方法，利用多头VBLL模型预测专家策略的性能和不确定性。
实验结果表明，该方法在模拟室内跟踪场景中优于基线方法，提升了跟踪性能。

📝 摘要（中文）

主动多目标跟踪需要移动机器人平衡对未检测目标的探索和对不确定跟踪目标的利用。扩散策略通过学习专家演示中的动作序列，成为捕获多样化行为策略的强大方法。然而，现有方法通过去噪过程隐式地选择策略，而没有对执行哪种策略进行不确定性量化。本文将扩散策略的专家选择形式化为离线上下文bandit问题，并提出了一个贝叶斯框架，用于悲观的、具有不确定性意识的策略选择。一个多头变分贝叶斯最后一层(VBLL)模型预测给定当前置信状态下每个专家策略的预期跟踪性能，提供点估计和预测不确定性。遵循离线决策的悲观原则，下限置信度(LCB)准则选择最坏情况预测性能最佳的专家，避免过度依赖预测不可靠的专家。所选专家调节扩散策略以生成相应的动作序列。在模拟室内跟踪场景中的实验表明，本文的方法优于基本扩散策略和标准门控方法，包括混合专家选择和确定性回归基线。

🔬 方法详解

问题定义：主动多目标跟踪任务中，移动机器人需要在探索未知目标和利用已知目标信息之间进行权衡。现有扩散策略方法在选择专家策略时，缺乏对策略性能不确定性的量化，容易选择到性能不稳定的专家，导致跟踪效果下降。

核心思路：论文的核心思路是将专家选择问题建模为离线上下文bandit问题，并利用贝叶斯方法对每个专家的性能进行预测，同时量化预测的不确定性。通过悲观原则，选择预期性能最差情况下表现最好的专家，从而避免选择不可靠的专家。

技术框架：整体框架包括以下几个主要模块：1) 多头变分贝叶斯最后一层(VBLL)模型：用于预测每个专家策略的预期跟踪性能，并提供预测的不确定性。2) 下限置信度(LCB)准则：基于VBLL模型的预测结果和不确定性，选择最悲观情况下性能最佳的专家。3) 扩散策略：根据选择的专家，生成相应的动作序列，控制机器人的运动。

关键创新：论文的关键创新在于将贝叶斯方法引入到扩散策略的专家选择中，实现了对专家性能不确定性的量化。通过VBLL模型和LCB准则，能够选择更可靠的专家，提高跟踪性能。与传统的混合专家模型或确定性回归方法相比，该方法能够更好地处理策略选择中的不确定性。

关键设计：VBLL模型采用多头结构，每个头预测一个专家的性能。损失函数包括预测误差和KL散度，用于约束后验分布。LCB准则根据预测均值和标准差计算下限置信度，选择具有最大下限置信度的专家。扩散策略的具体网络结构和训练方法沿用现有工作。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在模拟室内跟踪场景中优于基线方法，包括基本扩散策略、混合专家选择和确定性回归基线。具体性能提升数据未知，但论文强调了该方法在跟踪性能方面的优越性，尤其是在处理策略选择不确定性方面的优势。

🎯 应用场景

该研究成果可应用于自主导航机器人、智能安防、搜救等领域。通过选择合适的专家策略，机器人能够更有效地探索未知环境，跟踪目标，并提高任务完成的效率和可靠性。该方法在资源受限或环境复杂的场景下具有重要的应用价值。

📄 摘要（原文）

Active multi-target tracking requires a mobile robot to balance exploration for undetected targets with exploitation of uncertain tracked ones. Diffusion policies have emerged as a powerful approach for capturing diverse behavioral strategies by learning action sequences from expert demonstrations. However, existing methods implicitly select among strategies through the denoising process, without uncertainty quantification over which strategy to execute. We formulate expert selection for diffusion policies as an offline contextual bandit problem and propose a Bayesian framework for pessimistic, uncertainty-aware strategy selection. A multi-head Variational Bayesian Last Layer (VBLL) model predicts the expected tracking performance of each expert strategy given the current belief state, providing both a point estimate and predictive uncertainty. Following the pessimism principle for offline decision-making, a Lower Confidence Bound (LCB) criterion then selects the expert whose worst-case predicted performance is best, avoiding overcommitment to experts with unreliable predictions. The selected expert conditions a diffusion policy to generate corresponding action sequences. Experiments on simulated indoor tracking scenarios demonstrate that our approach outperforms both the base diffusion policy and standard gating methods, including Mixture-of-Experts selection and deterministic regression baselines.

Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理