Deployable Vision-driven UAV River Navigation via Human-in-the-loop Preference Alignment
作者: Zihan Wang, Jianwen Li, Li-Fan Wu, Nina Mahmoudian
分类: cs.RO
发布日期: 2025-11-02
备注: Submitted to ICRA 2026
💡 一句话要点
提出SPAR-H算法,通过人机协同偏好对齐实现视觉驱动的无人机河流导航
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)
关键词: 人机协同学习 无人机导航 偏好对齐 强化学习 视觉驱动 河流环境 在线自适应
📋 核心要点
- 现有视觉驱动的无人机策略在实际部署中面临分布偏移和安全风险,需要高效的人工干预进行调整。
- SPAR-H算法融合了直接偏好优化和基于奖励的路径,利用人类提供的状态偏好来训练奖励模型并更新策略。
- 实验表明,SPAR-H算法在人机协同学习中表现优异,实现了最高的最终奖励和最低的方差,并在真实河流环境中验证了可行性。
📝 摘要(中文)
河流是环境监测和灾害响应的关键通道,视觉驱动策略引导的无人机(UAV)能够提供快速、低成本的覆盖。然而,部署会将仿真训练的策略暴露于分布偏移和安全风险中,需要通过有限的人工干预进行高效调整。本文研究了人机协同(HITL)学习,其中保守的监督者否决不安全或低效的动作,并通过比较智能体的提议与纠正性覆盖来提供状态偏好。我们引入了机器人状态混合偏好对齐(SPAR-H),它将策略logits上的直接偏好优化与基于奖励的路径融合,该路径从相同的偏好中训练即时奖励估计器,并使用信任区域替代更新策略。通过从固定的新手策略收集的五个HITL rollouts,SPAR-H在测试方法中实现了最高的最终情节奖励和最低的初始条件方差。学习到的奖励模型与人类偏好的动作对齐,并提升了附近的非干预选择,支持改进的稳定传播。我们在HITL设置中针对模仿学习(IL)、直接偏好变体和评估强化学习(RL)对SPAR-H进行了基准测试,并展示了无人机河流跟踪持续偏好对齐的实际可行性。总体而言,双重状态偏好经验性地为河流导航中的数据高效在线自适应提供了一条实用途径。
🔬 方法详解
问题定义:论文旨在解决视觉驱动的无人机在河流导航中,由于仿真环境与真实环境存在差异,导致策略性能下降甚至出现安全问题。现有方法,如直接使用仿真训练的策略,难以适应真实环境;而传统的强化学习方法需要大量的样本,与实际应用中人工干预成本高昂相矛盾。因此,如何在有限的人工干预下,快速有效地调整无人机策略,是本文要解决的核心问题。
核心思路:论文的核心思路是利用人机协同(HITL)学习,通过人类专家的偏好信息来指导无人机策略的改进。具体来说,人类扮演保守监督者的角色,对无人机的不安全或低效行为进行干预,并提供状态层面的偏好信息,即指出在当前状态下,哪种行为更符合人类的期望。SPAR-H算法利用这些偏好信息,同时进行直接偏好优化和奖励模型学习,从而更有效地提升策略性能。
技术框架:SPAR-H算法的整体框架包含以下几个主要模块:1) 策略网络:负责根据当前状态输出无人机的动作。2) 奖励模型:根据状态和动作,预测人类对该动作的偏好程度。3) 偏好收集模块:通过人机交互,收集人类对无人机动作的偏好信息。4) 策略更新模块:利用收集到的偏好信息,同时进行直接偏好优化和基于奖励的策略更新。整个流程如下:无人机根据策略网络输出动作,人类监督者判断该动作是否安全高效,如果需要干预,则提供纠正性动作。SPAR-H算法利用这些干预信息和状态偏好,更新奖励模型和策略网络,从而提升无人机的导航能力。
关键创新:SPAR-H算法的关键创新在于状态混合偏好对齐。它不同于传统的直接偏好优化方法,后者只关注策略logits的优化,而忽略了奖励信号的重要性。SPAR-H算法同时利用直接偏好优化和基于奖励的路径,将人类的偏好信息转化为奖励信号,从而更好地指导策略学习。此外,SPAR-H算法还采用了信任区域替代(Trust Region Surrogate)方法,保证策略更新的稳定性。
关键设计:SPAR-H算法的关键设计包括:1) 奖励模型结构:奖励模型采用神经网络结构,输入为状态和动作,输出为奖励值,用于估计人类对该动作的偏好程度。2) 损失函数设计:损失函数包含两部分:直接偏好优化损失和奖励模型学习损失。直接偏好优化损失用于直接优化策略logits,使其更符合人类的偏好;奖励模型学习损失用于训练奖励模型,使其能够准确预测人类的偏好。3) 信任区域替代:采用Trust Region Policy Optimization (TRPO) 的思想,限制策略更新的幅度,保证策略更新的稳定性。
📊 实验亮点
实验结果表明,SPAR-H算法在五次人机协同rollout后,能够显著提升无人机的导航性能,实现了最高的最终情节奖励和最低的初始条件方差。与模仿学习(IL)、直接偏好变体和评估强化学习(RL)等基线方法相比,SPAR-H算法表现出更强的学习能力和更好的泛化性能。此外,真实河流环境下的实验验证了SPAR-H算法的实际可行性。
🎯 应用场景
该研究成果可广泛应用于河流环境监测、灾害应急响应、水利工程巡检等领域。通过人机协同的方式,无人机能够快速适应复杂多变的河流环境,实现自主导航和目标识别,降低人工成本,提高工作效率。未来,该技术有望扩展到其他复杂环境下的无人机自主导航任务,例如城市巡检、森林防火等。
📄 摘要(原文)
Rivers are critical corridors for environmental monitoring and disaster response, where Unmanned Aerial Vehicles (UAVs) guided by vision-driven policies can provide fast, low-cost coverage. However, deployment exposes simulation-trained policies with distribution shift and safety risks and requires efficient adaptation from limited human interventions. We study human-in-the-loop (HITL) learning with a conservative overseer who vetoes unsafe or inefficient actions and provides statewise preferences by comparing the agent's proposal with a corrective override. We introduce Statewise Hybrid Preference Alignment for Robotics (SPAR-H), which fuses direct preference optimization on policy logits with a reward-based pathway that trains an immediate-reward estimator from the same preferences and updates the policy using a trust-region surrogate. With five HITL rollouts collected from a fixed novice policy, SPAR-H achieves the highest final episodic reward and the lowest variance across initial conditions among tested methods. The learned reward model aligns with human-preferred actions and elevates nearby non-intervened choices, supporting stable propagation of improvements. We benchmark SPAR-H against imitation learning (IL), direct preference variants, and evaluative reinforcement learning (RL) in the HITL setting, and demonstrate real-world feasibility of continual preference alignment for UAV river following. Overall, dual statewise preferences empirically provide a practical route to data-efficient online adaptation in riverine navigation.