DRL-TH: Jointly Utilizing Temporal Graph Attention and Hierarchical Fusion for UGV Navigation in Crowded Environments

作者: Ruitong Li, Lin Zhang, Yuenan Zhao, Chengxin Liu, Ran Song, Wei Zhang

分类: cs.RO, cs.AI

发布日期: 2025-12-30

💡 一句话要点

提出DRL-TH框架，利用时序图注意力与分层融合提升UGV在拥挤环境中的导航能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 无人地面车辆 深度强化学习 时序图注意力 多模态融合 自主导航 拥挤环境 图神经网络

📋 核心要点

现有UGV导航方法依赖单帧观测和简单多模态融合，难以捕捉时序信息和动态适应环境。
DRL-TH框架通过时序图注意力网络(TG-GAT)和分层图抽象模块(GHAM)实现时序信息建模和多模态特征融合。
实验结果表明，DRL-TH在拥挤环境中优于现有方法，并在真实UGV上验证了其有效性。

📝 摘要（中文）

本文提出了一种基于深度强化学习(DRL)的导航框架DRL-TH，用于提升无人地面车辆(UGV)在拥挤环境中的自主导航和避障能力。现有方法通常依赖于单帧观测，并采用简单的拼接方式进行多模态融合，限制了它们捕获时序上下文和动态适应性的能力。为了解决这些挑战，DRL-TH利用时序图注意力和分层图池化来整合历史观测信息并自适应地融合多模态信息。具体而言，引入了时序引导的图注意力网络(TG-GAT)，将时间权重融入注意力分数中，以捕获连续帧之间的相关性，从而隐式地估计场景演变。此外，设计了一个图分层抽象模块(GHAM)，应用分层池化和可学习的加权融合来动态整合RGB和LiDAR特征，实现跨多个尺度的平衡表示。大量实验表明，DRL-TH在各种拥挤环境中优于现有方法。DRL-TH控制策略已在真实UGV上实施，并在真实场景中表现良好。

🔬 方法详解

问题定义：现有基于深度强化学习的UGV导航方法在拥挤环境中面临挑战，主要体现在两个方面：一是缺乏对历史信息的有效利用，通常只依赖单帧观测；二是多模态信息融合方式简单，无法自适应地调整不同模态特征的权重。这些问题导致UGV难以准确理解场景动态变化，从而影响导航性能。

核心思路：DRL-TH的核心思路是利用图神经网络来建模环境的时序动态和多模态特征。通过引入时序图注意力网络(TG-GAT)，将时间信息融入到图注意力机制中，从而学习连续帧之间的相关性，实现对场景演变的隐式估计。同时，设计图分层抽象模块(GHAM)，通过分层池化和可学习的加权融合，动态整合RGB和LiDAR特征，实现跨尺度的平衡表示。

技术框架：DRL-TH框架主要包含以下几个模块：首先，使用RGB图像和LiDAR点云作为输入，分别提取视觉特征和几何特征。然后，TG-GAT模块利用历史帧的特征构建时序图，并通过注意力机制学习帧之间的依赖关系。接着，GHAM模块对RGB和LiDAR特征进行分层池化和融合，得到多尺度融合特征。最后，将融合特征输入到强化学习策略网络中，输出UGV的控制指令。

关键创新：DRL-TH的关键创新在于：1) 提出了时序引导的图注意力网络(TG-GAT)，将时间信息显式地融入到图注意力机制中，从而更好地捕捉场景的时序动态；2) 设计了图分层抽象模块(GHAM)，通过分层池化和可学习的加权融合，实现了RGB和LiDAR特征的动态融合，提升了多模态特征表示的鲁棒性。

关键设计：TG-GAT模块中，时间权重的设计至关重要，论文中可能采用了某种衰减函数来赋予不同时间步的权重。GHAM模块中，分层池化的层数和池化方式，以及可学习的加权融合的具体实现方式（例如，使用注意力机制），都是影响性能的关键因素。此外，强化学习策略网络的设计，包括网络结构、损失函数和奖励函数的设计，也会对最终的导航效果产生重要影响。具体参数设置未知，需要查阅论文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DRL-TH在各种拥挤环境中均优于现有方法。具体性能提升数据未知，但摘要中提到DRL-TH在真实UGV上进行了验证，并在真实场景中表现良好，证明了其在实际应用中的可行性。

🎯 应用场景

DRL-TH框架可应用于各种需要在拥挤环境中进行自主导航的UGV，例如：仓库物流、安防巡逻、灾难救援等。该研究成果有助于提升UGV在复杂环境中的适应性和安全性，降低人工干预的需求，具有重要的实际应用价值和广阔的市场前景。

📄 摘要（原文）

Deep reinforcement learning (DRL) methods have demonstrated potential for autonomous navigation and obstacle avoidance of unmanned ground vehicles (UGVs) in crowded environments. Most existing approaches rely on single-frame observation and employ simple concatenation for multi-modal fusion, which limits their ability to capture temporal context and hinders dynamic adaptability. To address these challenges, we propose a DRL-based navigation framework, DRL-TH, which leverages temporal graph attention and hierarchical graph pooling to integrate historical observations and adaptively fuse multi-modal information. Specifically, we introduce a temporal-guided graph attention network (TG-GAT) that incorporates temporal weights into attention scores to capture correlations between consecutive frames, thereby enabling the implicit estimation of scene evolution. In addition, we design a graph hierarchical abstraction module (GHAM) that applies hierarchical pooling and learnable weighted fusion to dynamically integrate RGB and LiDAR features, achieving balanced representation across multiple scales. Extensive experiments demonstrate that our DRL-TH outperforms existing methods in various crowded environments. We also implemented DRL-TH control policy on a real UGV and showed that it performed well in real world scenarios.

DRL-TH: Jointly Utilizing Temporal Graph Attention and Hierarchical Fusion for UGV Navigation in Crowded Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理