Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios

📄 arXiv: 2509.15582v2 📥 PDF

作者: Yuting Zeng, Zhiwen Zheng, You Zhou, JiaLing Xiao, Yongbin Yu, Manping Fan, Bo Gong, Liyong Ren

分类: cs.RO, cs.AI

发布日期: 2025-09-19 (更新: 2025-12-05)

备注: Upon further internal evaluation, we found that the current version does not adequately represent the clarity and completeness that we intend for this work. To avoid possible misunderstanding caused by this preliminary form, we request withdrawal. A refined version will be prepared privately before any further dissemination


💡 一句话要点

针对视障人士,提出动量约束混合启发式轨迹优化框架,结合残差增强DRL。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视障辅助导航 轨迹优化 深度强化学习 启发式算法 残差网络

📋 核心要点

  1. 现有方法在视障辅助导航中,难以兼顾轨迹平滑性、安全性和实时性,面临复杂环境适应性挑战。
  2. 提出MHHTOF框架,结合启发式采样和残差增强DRL,分阶段优化轨迹,实现平滑、安全和高效的导航。
  3. 实验表明,该方法收敛速度更快,成本更低,风险更小,显著提升了视障辅助导航的性能。

📝 摘要(中文)

本文提出了一种动量约束混合启发式轨迹优化框架(MHHTOF),专为视障人士的辅助导航设计,集成了轨迹采样生成、优化和评估,并结合了残差增强的深度强化学习(DRL)。在第一阶段,利用五阶多项式进行三阶插值,并在Frenet坐标系中生成启发式轨迹采样簇(HTSC),同时施加动量约束轨迹优化(MTO)以确保平滑性和可行性。在第一阶段的成本评估后,第二阶段利用基于LSTM的时间特征建模的残差增强Actor-Critic网络,自适应地优化笛卡尔坐标系中的轨迹选择。双阶段成本建模机制(DCMM)通过权重转移对齐了各阶段的语义优先级,支持以人为本的优化。实验结果表明,所提出的LSTM-ResB-PPO算法收敛速度明显加快,达到稳定策略性能所需的训练迭代次数约为PPO基线的一半,同时提高了奖励结果和训练稳定性。与基线方法相比,所选模型将平均成本和成本方差降低了30.3%和53.3%,并将自身和障碍物风险降低了77%以上。这些发现验证了该框架在复杂辅助规划任务中增强鲁棒性、安全性和实时可行性的有效性。

🔬 方法详解

问题定义:论文旨在解决视障人士在复杂环境中导航时,传统轨迹规划方法难以兼顾安全性、平滑性和实时性的问题。现有方法通常依赖于人工设计的启发式规则或计算复杂度高的优化算法,难以适应动态变化的环境,并且缺乏对人类行为意图的理解。

核心思路:论文的核心思路是将轨迹规划过程分解为两个阶段:第一阶段利用启发式方法快速生成候选轨迹,并进行初步筛选;第二阶段利用深度强化学习(DRL)对轨迹进行精细化调整和选择。通过这种混合方法,可以兼顾规划效率和轨迹质量,同时利用DRL学习人类行为模式,实现更安全、舒适的导航。

技术框架:MHHTOF框架包含以下主要模块:1) 启发式轨迹采样簇(HTSC)生成模块,在Frenet坐标系下生成候选轨迹;2) 动量约束轨迹优化(MTO)模块,对轨迹进行平滑性约束;3) 第一阶段成本评估模块,对候选轨迹进行初步筛选;4) 残差增强Actor-Critic网络,基于LSTM的时间特征建模,在笛卡尔坐标系下进行轨迹优化和选择;5) 双阶段成本建模机制(DCMM),用于对齐两个阶段的语义优先级。

关键创新:论文的关键创新在于:1) 提出了动量约束的启发式轨迹采样方法,保证了轨迹的平滑性和可行性;2) 引入了残差增强的Actor-Critic网络,提高了DRL算法的收敛速度和稳定性;3) 设计了双阶段成本建模机制,实现了两个阶段的协同优化。

关键设计:在启发式轨迹采样中,使用了五阶多项式进行三阶插值,以保证轨迹的平滑性。在DRL网络中,使用了LSTM来建模时间序列特征,并引入了残差连接来加速训练。成本函数的设计考虑了轨迹的长度、平滑性、安全性以及与目标点的距离等因素。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的LSTM-ResB-PPO算法相比于PPO基线,收敛速度提升约50%,同时提高了奖励和训练稳定性。与基线方法相比,该模型将平均成本降低了30.3%,成本方差降低了53.3%,并将自身和障碍物风险降低了77%以上,显著提升了导航性能。

🎯 应用场景

该研究成果可应用于视障人士辅助导航设备,如智能手杖、智能眼镜等,帮助他们更安全、自主地在复杂环境中行走。此外,该框架也可扩展到其他需要人机协作的机器人导航场景,如自动驾驶、服务机器人等,提升机器人的智能化水平和用户体验。

📄 摘要(原文)

This paper proposes a momentum-constrained hybrid heuristic trajectory optimization framework (MHHTOF) tailored for assistive navigation in visually impaired scenarios, integrating trajectory sampling generation, optimization and evaluation with residual-enhanced deep reinforcement learning (DRL). In the first stage, heuristic trajectory sampling cluster (HTSC) is generated in the Frenet coordinate system using third-order interpolation with fifth-order polynomials and momentum-constrained trajectory optimization (MTO) constraints to ensure smoothness and feasibility. After first stage cost evaluation, the second stage leverages a residual-enhanced actor-critic network with LSTM-based temporal feature modeling to adaptively refine trajectory selection in the Cartesian coordinate system. A dual-stage cost modeling mechanism (DCMM) with weight transfer aligns semantic priorities across stages, supporting human-centered optimization. Experimental results demonstrate that the proposed LSTM-ResB-PPO achieves significantly faster convergence, attaining stable policy performance in approximately half the training iterations required by the PPO baseline, while simultaneously enhancing both reward outcomes and training stability. Compared to baseline method, the selected model reduces average cost and cost variance by 30.3% and 53.3%, and lowers ego and obstacle risks by over 77%. These findings validate the framework's effectiveness in enhancing robustness, safety, and real-time feasibility in complex assistive planning tasks.