AeroBridge-TTA: Test-Time Adaptive Language-Conditioned Control for UAVs

📄 arXiv: 2604.19059v1 📥 PDF

作者: Lingxue Lyu

分类: cs.RO

发布日期: 2026-04-21


💡 一句话要点

AeroBridge-TTA:面向无人机的测试时自适应语言条件控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机控制 语言引导 测试时自适应 领域自适应 强化学习

📋 核心要点

  1. 现有语言引导无人机常因执行不匹配而失败,即规划轨迹与实际执行的差异。
  2. AeroBridge-TTA通过测试时自适应更新潜在变量,弥合训练与实际环境的动力学差异。
  3. 实验表明,该方法在异分布条件下显著优于基线,性能提升主要来自OOD场景。

📝 摘要(中文)

本文提出AeroBridge-TTA,一种针对语言引导的无人机控制管道,旨在解决执行不匹配问题。该问题源于计划轨迹与控制器在实际动力学(质量变化、阻力变化、执行器延迟、风)与训练时不同时,跟踪轨迹的能力之间的差距。AeroBridge-TTA包含三个部分:一个将命令映射到子目标的语言编码器,一个以子目标和学习到的潜在变量为条件的自适应策略,以及一个从观察到的转换在线更新潜在变量的测试时自适应(TTA)模块。在13种不匹配条件下,五个语言条件无人机任务上的实验表明,AeroBridge-TTA在同分布情况下与强大的PPO-MLP基线持平,并在所有五个异分布(OOD)条件下均优于基线,平均提升22.0个百分点(62.7% vs. 40.7%)。总体提升8.5个百分点完全来自OOD情况。仅改变步长α的相同权重消融实验表明,潜在变量更新本身带来了4.6倍的OOD性能提升。

🔬 方法详解

问题定义:现有语言引导的无人机控制方法,在训练环境与实际环境存在差异时,例如质量变化、风力扰动等,控制器的执行效果会显著下降,无法准确跟踪规划的轨迹。这种执行不匹配是制约语言引导无人机应用的关键问题。

核心思路:本文的核心思路是在测试时,通过在线自适应地调整策略中的潜在变量,来适应实际环境的动力学变化。通过这种方式,可以弥合训练环境与实际环境之间的差异,提高无人机的控制精度和鲁棒性。

技术框架:AeroBridge-TTA包含三个主要模块:1) 语言编码器:将语言命令映射为子目标;2) 自适应策略:基于子目标和潜在变量生成控制指令;3) 测试时自适应(TTA)模块:根据观察到的状态转移,在线更新潜在变量。整体流程是,首先通过语言编码器将指令转化为子目标,然后自适应策略根据子目标和当前潜在变量生成控制指令,无人机执行该指令后,TTA模块根据执行结果更新潜在变量,从而使策略适应当前环境。

关键创新:最重要的创新点在于测试时自适应模块,该模块通过在线更新潜在变量,使策略能够适应未知的环境动力学变化。与传统的领域自适应方法不同,AeroBridge-TTA不需要预先收集目标域的数据,而是通过在线学习的方式,逐步适应环境。

关键设计:自适应策略使用一个以子目标和潜在变量为条件的神经网络。TTA模块使用梯度下降法更新潜在变量,目标是最小化预测的状态与实际状态之间的误差。步长α是TTA模块的关键参数,控制着潜在变量的更新速度。论文通过消融实验验证了潜在变量更新本身对性能提升的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AeroBridge-TTA在异分布(OOD)条件下表现出色,平均提升22.0个百分点(62.7% vs. 40.7%),总体提升8.5个百分点完全来自OOD情况。消融实验表明,潜在变量更新本身带来了4.6倍的OOD性能提升,验证了测试时自适应模块的有效性。

🎯 应用场景

该研究成果可应用于各种需要语言引导的无人机任务,例如物流配送、环境监测、灾害救援等。通过提高无人机在复杂环境下的控制精度和鲁棒性,可以扩展无人机的应用范围,并提高其在实际场景中的可靠性。未来,该方法可以进一步推广到其他机器人控制领域。

📄 摘要(原文)

Language-guided unmanned aerial vehicles (UAVs) often fail not from bad reasoning or perception, but from execution mismatch: the gap between a planned trajectory and the controller's ability to track it when the real dynamics differ from training (mass changes, drag shifts, actuator delay, wind). We propose AeroBridge-TTA, a language-conditioned control pipeline that targets this gap with test-time adaptation. It has three parts: a language encoder that maps the command into a subgoal, an adaptive policy conditioned on the subgoal and a learned latent, and a test-time adaptation (TTA) module that updates the latent online from observed transitions. On five language-conditioned UAV tasks under 13 mismatch conditions with the same domain randomization, AeroBridge-TTA ties a strong PPO-MLP baseline in-distribution and wins all 5 out-of-distribution (OOD) conditions, +22.0 pts on average (62.7% vs. 40.7%); the +8.5 pt overall gain comes entirely from the OOD regime. A same-weights ablation that only changes the step size $α$ shows the latent update itself is responsible for a $4.6\times$ OOD lift.