Digital Twin-Guided Robot Path Planning: A Beta-Bernoulli Fusion with Large Language Model as a Sensor

📄 arXiv: 2509.20709v1 📥 PDF

作者: Mani Amani, Reza Akhavian

分类: cs.RO

发布日期: 2025-09-25


💡 一句话要点

提出基于数字孪生的机器人路径规划方法,融合LLM语义信息提升安全性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人路径规划 数字孪生 自然语言理解 大型语言模型 贝叶斯融合 建筑信息模型 人机交互

📋 核心要点

  1. 现有机器人路径规划方法难以有效融合自然语言指令,尤其是在建筑等复杂环境中。
  2. 该方法利用Beta-Bernoulli贝叶斯融合框架,将LLM的语义理解能力与BIM的几何信息相结合,指导机器人规划。
  3. 仿真结果表明,该方法在路径的鲁棒性和有效性方面均有提升,能够更好地理解和执行自然语言指令。

📝 摘要(中文)

本文提出了一种新颖的框架,将自然语言(NL)指令集成到机器人任务规划中,尤其是在建筑领域。该框架利用建筑信息模型(BIM)中丰富的NL环境描述,通过Beta-Bernoulli贝叶斯融合将NL指令与BIM导出的语义地图相结合,并将大型语言模型(LLM)视为传感器。每个障碍物的设计时排斥系数被视为Beta(alpha, beta)随机变量,LLM返回的危险分数被纳入作为伪计数,以更新alpha和beta。由此产生的后验均值产生一个连续的、上下文感知的排斥增益,增强了基于欧几里德距离的势场,用于成本启发式。通过根据用户提示推断的情感和上下文调整增益,该方法引导机器人沿着更安全、更具上下文感知的路径。该方法提供了一种数值稳定的方法,可以链接来自建筑工人和工头的多个自然命令和提示,从而实现规划,同时灵活地集成到任何学习或经典AI框架中。仿真结果表明,这种Beta-Bernoulli融合在路径鲁棒性和有效性方面都产生了定性和定量的改进。

🔬 方法详解

问题定义:现有机器人路径规划方法在复杂环境中,难以有效融合自然语言指令,导致机器人无法理解人类意图,从而影响任务执行效率和安全性。尤其是在建筑领域,BIM模型包含丰富的语义信息,但传统方法难以充分利用这些信息。

核心思路:论文的核心思路是将大型语言模型(LLM)视为一种传感器,用于感知环境中的危险程度,并将LLM的输出与BIM模型中的几何信息进行融合。通过Beta-Bernoulli贝叶斯融合框架,将LLM返回的危险分数转化为障碍物的排斥力,从而引导机器人规划出更安全、更符合人类意图的路径。

技术框架:整体框架包含以下几个主要模块:1) 自然语言指令输入;2) LLM危险程度评估;3) BIM模型信息提取;4) Beta-Bernoulli贝叶斯融合;5) 基于势场的路径规划。首先,用户输入自然语言指令。然后,LLM评估环境中各个位置的危险程度,并输出危险分数。同时,从BIM模型中提取障碍物的几何信息。接下来,使用Beta-Bernoulli贝叶斯融合框架,将LLM的危险分数与BIM模型中的几何信息进行融合,得到每个障碍物的排斥力。最后,基于势场的方法,根据障碍物的排斥力规划出机器人的安全路径。

关键创新:该方法最重要的创新点在于将LLM视为一种传感器,并利用Beta-Bernoulli贝叶斯融合框架,将LLM的语义理解能力与BIM模型的几何信息相结合。与现有方法相比,该方法能够更好地理解人类意图,并规划出更安全、更符合人类意图的路径。此外,该方法还具有数值稳定性,可以处理多个自然语言指令。

关键设计:每个障碍物的设计时排斥系数被建模为Beta(alpha, beta)随机变量。LLM返回的危险分数被用作伪计数,用于更新alpha和beta参数,从而得到后验分布。后验均值被用作障碍物的排斥增益,用于调整势场的大小。通过调整alpha和beta参数,可以控制LLM的影响程度。损失函数采用传统的势场方法,目标是使机器人能够安全地到达目标点,同时避开障碍物。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,该方法在路径鲁棒性和有效性方面均有提升。与传统方法相比,该方法能够更好地避开危险区域,并规划出更短、更安全的路径。具体性能数据(例如路径长度、碰撞次数等)在论文中进行了详细的对比分析,证明了Beta-Bernoulli融合的有效性。

🎯 应用场景

该研究成果可应用于建筑、仓储、物流等领域,提升机器人在复杂环境中的自主导航能力。通过融合自然语言指令,机器人能够更好地理解人类意图,从而更高效、安全地完成任务。未来,该方法有望应用于人机协作场景,实现更智能化的机器人服务。

📄 摘要(原文)

Integrating natural language (NL) prompts into robotic mission planning has attracted significant interest in recent years. In the construction domain, Building Information Models (BIM) encapsulate rich NL descriptions of the environment. We present a novel framework that fuses NL directives with BIM-derived semantic maps via a Beta-Bernoulli Bayesian fusion by interpreting the LLM as a sensor: each obstacle's design-time repulsive coefficient is treated as a Beta(alpha, beta) random variable and LLM-returned danger scores are incorporated as pseudo-counts to update alpha and beta. The resulting posterior mean yields a continuous, context-aware repulsive gain that augments a Euclidean-distance-based potential field for cost heuristics. By adjusting gains based on sentiment and context inferred from user prompts, our method guides robots along safer, more context-aware paths. This provides a numerically stable method that can chain multiple natural commands and prompts from construction workers and foreman to enable planning while giving flexibility to be integrated in any learned or classical AI framework. Simulation results demonstrate that this Beta-Bernoulli fusion yields both qualitative and quantitative improvements in path robustness and validity.