Diverse Controllable Diffusion Policy with Signal Temporal Logic

作者: Yue Meng, Chuchu fan

分类: cs.RO, cs.AI, cs.LG, cs.LO

发布日期: 2025-03-04

备注: Accepted by IEEE Robotics and Automation Letters (RA-L), October 2024

期刊: IEEE Robotics and Automation Letters, vol. 9, no. 10, pp. 8354-8361, Oct. 2024

DOI: 10.1109/LRA.2024.3444668

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于信号时序逻辑的扩散策略，实现自动驾驶场景下可控、多样且符合规则的智能体行为生成。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 扩散模型 信号时序逻辑 自动驾驶 轨迹生成 规则约束 行为规划 数据增强

📋 核心要点

现有基于规则的模型缺乏行为多样性且需要精细调整，而学习方法依赖于数据，难以显式遵循规则，且真实数据集的“单结果”特性限制了多样性生成。
利用信号时序逻辑（STL）显式地定义规则，并结合扩散模型学习策略，通过轨迹优化生成多样化的合成数据，从而增强训练数据集。
实验结果表明，该方法在NuScenes数据集上实现了更高的规则满足率、更低碰撞率和更高的轨迹多样性，且运行效率显著优于其他方法。

📝 摘要（中文）

本文提出了一种利用信号时序逻辑（STL）和扩散模型来学习可控、多样且符合规则的策略的方法。针对自动驾驶和人机交互等自主系统应用中，现有驾驶模拟器难以生成可控、多样和符合规则的道路参与者行为的问题，该方法首先在真实世界数据上校准STL，然后使用轨迹优化生成多样化的合成数据，最后在增强数据集上学习修正的扩散策略。在NuScenes数据集上的测试表明，与其它基线方法相比，该方法能够实现最多样化的规则兼容轨迹，且运行时间是最优方法的1/17。在闭环测试中，该方法达到了最高的规则满足率和最低的碰撞率，同时具有最高的轨迹多样性。案例研究表明，该方法可以生成多样且接近最优轨迹的行为。

🔬 方法详解

问题定义：现有自动驾驶模拟器难以生成可控、多样且符合交通规则的道路参与者行为。基于规则的方法缺乏多样性，需要手动调整；基于学习的方法依赖于真实数据，难以生成规则约束下的多样化行为，且真实数据本身通常是单一结果，限制了策略的多样性。

核心思路：利用信号时序逻辑（STL）显式地表达交通规则，并将其作为约束条件，指导扩散模型生成符合规则的轨迹。通过轨迹优化方法，在STL约束下生成多样化的合成数据，扩充训练数据集，从而提升策略的学习效果和泛化能力。

技术框架：整体框架包含三个主要阶段：1) STL校准：在真实世界数据上校准STL参数，使其能够准确描述交通规则。2) 数据增强：使用轨迹优化方法，在STL约束下生成多样化的合成轨迹，扩充训练数据集。3) 扩散策略学习：在增强后的数据集上训练扩散模型，学习生成符合规则且多样化的驾驶策略。

关键创新：将信号时序逻辑（STL）与扩散模型相结合，显式地将规则约束融入到策略学习过程中。通过轨迹优化生成多样化的合成数据，克服了真实数据集的“单结果”局限性，提升了策略的多样性和泛化能力。该方法在保证规则满足的同时，显著提升了轨迹的多样性。

关键设计：STL校准过程使用真实数据学习STL公式中的参数，确保规则的准确性。轨迹优化过程使用合适的优化器和目标函数，在满足STL约束的前提下，生成多样化的轨迹。扩散模型采用标准的扩散模型结构，通过调整扩散过程的噪声水平和采样策略，控制生成轨迹的多样性。损失函数包括轨迹预测损失和STL约束损失，平衡了轨迹预测的准确性和规则的满足程度。

🖼️ 关键图片

📊 实验亮点

在NuScenes数据集上的实验结果表明，该方法在规则满足率、碰撞率和轨迹多样性方面均优于其他基线方法。具体而言，该方法在保证高规则满足率和低碰撞率的同时，实现了比第二好的方法高17倍的运行效率。闭环测试进一步验证了该方法在实际场景中的有效性，证明其能够生成多样化且符合规则的驾驶行为。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的仿真测试、人机交互场景的模拟、以及机器人路径规划等领域。通过生成多样化且符合规则的智能体行为，可以更全面地评估自动驾驶系统的性能，提高其安全性和可靠性。此外，该方法还可以用于生成更逼真的人机交互场景，提升机器人与人类协作的效率和安全性。

📄 摘要（原文）

Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.

Diverse Controllable Diffusion Policy with Signal Temporal Logic

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理