Encoding Predictability and Legibility for Style-Conditioned Diffusion Policy

📄 arXiv: 2603.16368v1 📥 PDF

作者: Adrien Jacquet Crétides, Mouad Abrini, Hamed Rahimi, Mohamed Chetouani

分类: cs.RO, cs.LG

发布日期: 2026-03-17

备注: Submitted to the 18th International Conference on Social Robotics (ICSR 2026)


💡 一句话要点

提出风格条件扩散策略(SCDP),在人机协作中平衡运动效率和可理解性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 扩散模型 运动规划 可理解性 运动效率

📋 核心要点

  1. 现有方法难以兼顾人机协作中机器人运动的效率和可理解性,高表达性动作耗时耗力,而低表达性动作难以理解。
  2. 论文提出SCDP框架,通过场景编码器和条件预测器调节扩散过程,根据环境歧义性自适应地选择可理解性或效率优先的运动风格。
  3. 实验表明,SCDP在歧义环境中提高了可理解性,在非歧义环境中保持了效率,且无需重新训练基础策略。

📝 摘要(中文)

在人机协作中,平衡效率和透明的运动是一个核心挑战,因为高表达性的运动通常会产生不必要的时间和能量成本。在协作环境中,可理解性使人类观察者更好地理解机器人的行为,从而提高安全性和信任度。然而,这些行为会导致次优和夸张的轨迹,这些轨迹在机器人目标已经很明显的低歧义场景中是多余的。为了解决这种权衡,我们提出了一种风格条件扩散策略(SCDP),这是一个模块化框架,它根据环境的配置,将预训练扩散模型的轨迹生成约束为可理解性或效率。我们的方法利用了一个后训练流程,该流程冻结了基本策略,并训练了一个轻量级的场景编码器和条件预测器来调节扩散过程。在推理时,一个歧义检测模块激活适当的条件,仅在目标不明确时优先考虑表达性运动,否则恢复为高效路径。我们在操作和导航任务上评估了SCDP,结果表明,它在不明确的设置中增强了可理解性,同时在不需要可理解性时保持了最佳效率,所有这些都不需要重新训练基本策略。

🔬 方法详解

问题定义:论文旨在解决人机协作中机器人运动效率和可理解性之间的权衡问题。现有方法要么过于关注运动效率,导致人类难以理解机器人的意图;要么过于强调运动的可理解性,导致机器人运动轨迹冗余,效率降低。因此,如何在不同场景下自适应地平衡运动效率和可理解性是本研究要解决的核心问题。

核心思路:论文的核心思路是利用风格条件扩散模型,通过场景编码器和条件预测器来调节扩散过程,从而控制机器人运动的风格。具体来说,根据环境的歧义程度,选择性地激活可理解性或效率优先的条件,使得机器人在目标不明确时采用更具表达性的运动,而在目标明确时采用更高效的运动。

技术框架:SCDP框架主要包含以下几个模块:1) 预训练的扩散模型作为基础策略;2) 场景编码器,用于提取环境特征;3) 条件预测器,用于预测运动风格(可理解性或效率);4) 歧义检测模块,用于判断环境的歧义程度;5) 风格条件扩散过程,根据歧义检测结果和条件预测器的输出,调节扩散过程,生成最终的机器人运动轨迹。

关键创新:SCDP的关键创新在于:1) 提出了一种风格条件扩散策略,能够根据环境的歧义程度自适应地选择运动风格;2) 采用后训练流程,无需重新训练基础策略,降低了训练成本;3) 设计了轻量级的场景编码器和条件预测器,提高了模型的效率。与现有方法相比,SCDP能够更好地平衡运动效率和可理解性,提高人机协作的效率和安全性。

关键设计:场景编码器采用卷积神经网络提取环境图像特征。条件预测器是一个多层感知机,输入是场景编码器的输出和歧义检测模块的输出,输出是运动风格的概率分布。扩散过程通过调节噪声的添加方式来控制运动风格。损失函数包括重构损失和风格分类损失。歧义检测模块通过计算目标位置的不确定性来判断环境的歧义程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SCDP在操作和导航任务中均取得了良好的效果。在歧义环境中,SCDP显著提高了运动的可理解性,同时在非歧义环境中保持了较高的运动效率。与基线方法相比,SCDP在可理解性和效率之间取得了更好的平衡,且无需重新训练基础策略。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如:协作机器人、自动驾驶、服务机器人等。通过提高机器人运动的可理解性,可以增强人类对机器人的信任感,提高协作效率和安全性。未来,该方法可以进一步扩展到更复杂的环境和任务中,例如:多机器人协作、人机混合决策等。

📄 摘要(原文)

Striking a balance between efficiency and transparent motion is a core challenge in human-robot collaboration, as highly expressive movements often incur unnecessary time and energy costs. In collaborative environments, legibility allows a human observer a better understanding of the robot's actions, increasing safety and trust. However, these behaviors result in sub-optimal and exaggerated trajectories that are redundant in low-ambiguity scenarios where the robot's goal is already obvious. To address this trade-off, we propose Style-Conditioned Diffusion Policy (SCDP), a modular framework that constrains the trajectory generation of a pre-trained diffusion model toward either legibility or efficiency based on the environment's configuration. Our method utilizes a post-training pipeline that freezes the base policy and trains a lightweight scene encoder and conditioning predictor to modulate the diffusion process. At inference time, an ambiguity detection module activates the appropriate conditioning, prioritizing expressive motion only for ambiguous goals and reverting to efficient paths otherwise. We evaluate SCDP on manipulation and navigation tasks, and results show that it enhances legibility in ambiguous settings while preserving optimal efficiency when legibility is unnecessary, all without retraining the base policy.