HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation

作者: Haoxuan Xu, Tianfu Li, Wenbo Chen, Yi Liu, Jin Wu, Huashuo Lei, Yunfan Lou, Lujia Wang, Hesheng Wang, Haoang Li

分类: cs.RO

发布日期: 2026-05-13

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出HCSG框架，用于动态人机交互场景下基于语义-几何推理的视觉-语言导航。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言导航 人机交互 语义理解 几何预测 动态环境 机器人导航 社交距离

📋 核心要点

现有视觉-语言导航方法在动态环境中难以有效处理与人类的交互，缺乏对人类意图的理解。
HCSG框架通过融合几何预测和语义解释，实现对人类行为的理解，并将其融入导航规划中。
实验表明，HCSG在HA-VLNCE基准上显著提升了导航成功率，并降低了碰撞率，验证了其有效性。

📝 摘要（中文）

本文提出了一种以人为中心的视觉-语言导航框架HCSG，旨在解决真实室内环境中机器人与动态行人交互的问题。现有方法通常将行人视为移动障碍物，缺乏对人类意图的显式推理。HCSG通过统一的人类理解模块，融合了几何预测和语义解释两种关键能力：几何预测用于预测人类的姿态和轨迹，从而预测未来的运动动态；语义解释则利用视觉-语言模型（VLM）生成对人类行为和意图的自然语言描述。这些语义-几何表示被融合到智能体的拓扑地图中，用于指令条件下的规划。此外，引入了社交距离损失来强制执行符合社会规范的交互距离。在HA-VLNCE基准上的实验表明，HCSG显著优于现有方法，成功率提高了14%，碰撞率降低了34%。

🔬 方法详解

问题定义：现有的视觉-语言导航（VLN）方法在处理动态环境，特别是人机交互场景时，存在明显的局限性。它们通常将人类简单地视为移动的障碍物，缺乏对人类行为意图的理解和预测，导致导航策略不够安全和智能。这种被动式的避障方法无法满足真实世界中人机协作的需求。

核心思路：HCSG的核心思路在于构建一个以人为中心的导航框架，通过显式地理解人类的行为和意图，使机器人能够更安全、更智能地在动态环境中导航。具体而言，它结合了几何预测（预测人类的运动轨迹）和语义解释（理解人类的行为意图），从而为机器人提供更全面的环境感知。

技术框架：HCSG框架主要包含以下几个模块：1) 人类理解模块：这是HCSG的核心，它融合了几何预测和语义解释。几何预测模块预测人类的姿态和轨迹，语义解释模块利用视觉-语言模型生成对人类行为和意图的自然语言描述。2) 拓扑地图融合：将人类理解模块输出的语义-几何信息融合到智能体的拓扑地图中，从而增强智能体对环境的理解。3) 指令条件规划：基于融合了人类信息的拓扑地图，进行指令条件下的导航规划。4) 社交距离损失：引入社交距离损失，鼓励智能体在导航过程中保持与人类的适当距离，符合社会规范。

关键创新：HCSG的关键创新在于其统一的人类理解模块，该模块首次将几何预测和语义解释相结合，用于视觉-语言导航任务。与现有方法仅仅依赖视觉线索将人类视为障碍物不同，HCSG能够显式地推理人类的意图和预测其未来的运动轨迹，从而实现更安全、更智能的导航。

关键设计：1) 几何预测模块：具体实现细节未知，但其目标是预测人类的姿态和轨迹。2) 语义解释模块：利用预训练的视觉-语言模型（VLM），将人类的视觉信息转化为自然语言描述，从而理解人类的行为意图。3) 社交距离损失：具体形式未知，但其作用是惩罚智能体与人类过于接近的行为，鼓励智能体保持适当的社交距离。

🖼️ 关键图片

📊 实验亮点

HCSG在HA-VLNCE基准测试中取得了显著的性能提升，成功率提高了14%，碰撞率降低了34%。这些结果表明，HCSG框架能够有效地理解人类行为和意图，并在动态环境中实现更安全、更智能的导航。相较于现有方法，HCSG在人机交互方面表现出更强的鲁棒性和适应性。

🎯 应用场景

HCSG框架在人机协作的室内导航场景中具有广泛的应用前景，例如：服务型机器人可以在家庭、办公室、医院等环境中，安全、智能地为人类提供服务；在仓储物流领域，机器人可以与工人协同工作，提高效率并降低事故风险。该研究有助于推动机器人技术在复杂动态环境中的应用，促进人机和谐共处。

📄 摘要（原文）

VLN has achieved remarkable progress by scaling data and model capacity. However, the assumption of a static environment breaks down in real-world indoor scenarios, where robots inevitably encounter dynamic pedestrians. Existing human-aware approaches typically treat humans merely as moving obstacles based on implicit visual cues, lacking the explicit reasoning required to interpret human intentions or maintain social norms. To address this, we propose HCSG, the first human-centric framework for VLN. This framework provides a robust foundation for safe, socially intelligent navigation in dynamic human-robot environments that shifts the paradigm from passive collision avoidance to active human behavior understanding. Specifically, HCSG introduces a unified Human Understanding Module that synergizes two key capabilities: (i) geometric forecasting, which predicts human pose and trajectory to anticipate future motion dynamics; and (ii) semantic interpretation, which leverages a Vision-Language Model (VLM) to generate natural language descriptions of human actions and intentions. These semantic-geometric representations are fused into the agent's topological map for instruction-conditioned planning. Furthermore, a social distance loss is introduced to enforce socially compliant interaction distances. Extensive experiments on the HA-VLNCE benchmark demonstrate that HCSG significantly outperforms state-of-the-art methods, achieving a 14% improvement in Success Rate and a 34% reduction in Collision Rate. Our project can be seen at https://haoxuanxu1024.github.io/HCSG/.

HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理