Inference-Time Policy Steering through Human Interactions

作者: Yanwei Wang, Lirui Wang, Yilun Du, Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D'Arpino, Dieter Fox, Julie Shah

分类: cs.RO, cs.AI, cs.HC, cs.LG

发布日期: 2024-11-25 (更新: 2025-03-26)

备注: ICRA 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出推理时策略引导框架，通过人机交互提升生成策略的性能并避免分布偏移。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 策略引导 生成策略 分布偏移 扩散模型

📋 核心要点

现有生成策略在推理时缺乏人工干预，难以引导策略达到特定目标，直接干预易导致分布偏移。
提出推理时策略引导（ITPS）框架，利用人机交互偏置生成采样过程，无需微调策略。
在模拟和真实环境验证ITPS，结果表明基于扩散策略的随机采样在对齐和分布偏移间取得最佳平衡。

📝 摘要（中文）

通过人类演示训练的生成策略能够自主完成多模态、长时程任务。然而，在推理过程中，人类通常被排除在策略执行循环之外，限制了引导预训练策略朝着多个预测中的特定子目标或轨迹形状的能力。简单的人工干预可能会无意中加剧分布偏移，导致约束违反或执行失败。为了在不对策略进行微调的情况下，更好地使策略输出与人类意图对齐，并避免引入分布外误差，我们提出了一个推理时策略引导（ITPS）框架，该框架利用人机交互来偏置生成采样过程。我们在三个模拟和真实世界的基准测试中评估了ITPS，测试了三种形式的人机交互和相关的对齐距离度量。在六种采样策略中，我们提出的基于扩散策略的随机采样在对齐和分布偏移之间实现了最佳的权衡。

🔬 方法详解

问题定义：论文旨在解决生成策略在推理阶段缺乏有效的人工引导，导致无法灵活适应人类意图，以及直接人工干预容易引起分布偏移的问题。现有方法要么依赖离线微调，要么直接修改策略输出，前者成本高昂，后者容易引入未知的状态空间，导致策略失效。

核心思路：论文的核心思路是在推理阶段，利用人类的交互信息来引导生成策略的采样过程，而不是直接修改策略本身。通过这种方式，可以在不改变策略分布的前提下，使其输出更符合人类的意图，从而避免分布偏移问题。

技术框架：ITPS框架主要包含以下几个模块：1) 预训练的生成策略，负责生成候选轨迹；2) 人机交互模块，负责接收人类的交互信号，例如目标位置、轨迹形状等；3) 对齐度量模块，负责计算候选轨迹与人类意图之间的对齐程度；4) 采样策略模块，负责根据对齐程度对候选轨迹进行加权采样，从而选择最符合人类意图的轨迹。整体流程是，首先生成多个候选轨迹，然后根据人类的交互信息计算每个轨迹的对齐程度，最后根据对齐程度对轨迹进行加权采样，选择最终执行的轨迹。

关键创新：论文的关键创新在于提出了在推理时通过人机交互引导策略采样的方法，而不是直接修改策略本身。这种方法可以在不改变策略分布的前提下，使其输出更符合人类的意图，从而避免分布偏移问题。此外，论文还提出了多种人机交互方式和对齐度量方法，以及基于扩散模型的随机采样策略，进一步提升了ITPS框架的性能。

关键设计：论文的关键设计包括：1) 多种人机交互方式，例如目标位置引导、轨迹形状引导等；2) 多种对齐度量方法，例如基于距离的度量、基于相似度的度量等；3) 基于扩散模型的随机采样策略，该策略可以生成多样化的候选轨迹，并根据对齐程度进行加权采样。具体而言，扩散模型用于生成轨迹的噪声，然后通过逆扩散过程生成候选轨迹。采样时，根据人类交互计算的对齐分数，调整扩散过程中的噪声，从而引导生成更符合人类意图的轨迹。

🖼️ 关键图片

📊 实验亮点

论文在三个模拟和真实世界的基准测试中验证了ITPS框架的有效性。实验结果表明，ITPS框架可以显著提升策略输出与人类意图的对齐程度，同时有效避免分布偏移问题。特别是，基于扩散策略的随机采样方法在对齐和分布偏移之间取得了最佳的权衡。具体性能数据未知。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、游戏AI等领域。例如，在机器人操作中，可以通过人类的语音或手势引导机器人完成复杂的任务；在自动驾驶中，可以通过人类的指令调整车辆的行驶轨迹；在游戏AI中，可以通过人类的反馈调整AI的行为策略。该研究有助于提升人机协作的效率和安全性，并为开发更加智能和人性化的AI系统奠定基础。

📄 摘要（原文）

Generative policies trained with human demonstrations can autonomously accomplish multimodal, long-horizon tasks. However, during inference, humans are often removed from the policy execution loop, limiting the ability to guide a pre-trained policy towards a specific sub-goal or trajectory shape among multiple predictions. Naive human intervention may inadvertently exacerbate distribution shift, leading to constraint violations or execution failures. To better align policy output with human intent without inducing out-of-distribution errors, we propose an Inference-Time Policy Steering (ITPS) framework that leverages human interactions to bias the generative sampling process, rather than fine-tuning the policy on interaction data. We evaluate ITPS across three simulated and real-world benchmarks, testing three forms of human interaction and associated alignment distance metrics. Among six sampling strategies, our proposed stochastic sampling with diffusion policy achieves the best trade-off between alignment and distribution shift. Videos are available at https://yanweiw.github.io/itps/.

Inference-Time Policy Steering through Human Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理