Interpretable Locomotion Prediction in Construction Using a Memory-Driven LLM Agent With Chain-of-Thought Reasoning

作者: Ehsan Ahmadi, Chao Wang

分类: cs.RO

发布日期: 2025-04-21

💡 一句话要点

提出基于记忆增强LLM的步态预测Agent，提升建筑场景人机协作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 步态预测 大型语言模型 记忆增强 人机协作 外骨骼 建筑场景 多模态输入

📋 核心要点

现有外骨骼在建筑等动态环境中，缺乏对工人步态意图的准确识别，限制了其辅助效果。
提出一种基于记忆增强的大型语言模型（LLM）Agent，通过多模态输入和记忆机制预测步态，实现人机协作。
实验表明，该Agent在步态预测任务中，F1分数最高提升至0.90，校准指标也显著改善，提升了可靠性。

📝 摘要（中文）

建筑任务具有内在的不可预测性，动态环境和安全关键需求给工人带来重大风险。外骨骼具有潜在的辅助作用，但缺乏对各种步态模式的准确意图识别。本文提出了一种利用大型语言模型（LLM）并结合记忆系统的步态预测Agent，旨在改善此类场景中的外骨骼辅助。该Agent使用多模态输入（口语命令和来自智能眼镜的视觉数据），集成了感知模块、短期记忆（STM）、长期记忆（LTM）和细化模块，以有效地预测步态模式。评估显示，没有记忆的基线加权F1分数为0.73，使用STM时升至0.81，同时使用STM和LTM时达到0.90，尤其擅长处理模糊和安全关键命令。校准指标，包括Brier分数从0.244降至0.090，ECE从0.222降至0.044，证实了可靠性的提高。该框架支持更安全、更高级的人机外骨骼协作，并有望在动态行业中实现自适应辅助系统。

🔬 方法详解

问题定义：论文旨在解决建筑场景下，外骨骼系统难以准确预测工人步态意图的问题。现有方法无法有效处理建筑环境的动态性和复杂性，以及工人指令的模糊性，导致外骨骼辅助效果不佳，甚至可能带来安全风险。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大语义理解能力，结合短期和长期记忆机制，构建一个能够理解工人意图并预测步态的Agent。通过记忆机制，Agent可以学习和利用历史信息，从而更好地处理模糊指令和动态环境。

技术框架：该Agent的整体架构包含以下几个主要模块：1) 感知模块：负责接收来自智能眼镜的多模态输入，包括口语命令和视觉数据。2) 短期记忆（STM）：存储最近的交互历史，用于处理上下文相关的指令。3) 长期记忆（LTM）：存储更长时间内的经验知识，用于处理常见任务和场景。4) Refinement Module: 利用LLM和记忆模块的信息，对步态预测结果进行细化和校准。

关键创新：该论文的关键创新在于将记忆机制与LLM相结合，用于步态预测任务。通过短期和长期记忆，Agent能够更好地理解工人的意图，并适应动态的建筑环境。此外，该Agent能够处理模糊和安全关键的指令，提高了人机协作的安全性。

关键设计：论文中，短期记忆和长期记忆的具体实现方式未知。LLM的具体选择和训练方式也未知。损失函数和网络结构等技术细节也未在摘要中提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该Agent在步态预测任务中表现出色。在没有记忆的情况下，基线加权F1分数为0.73；使用STM时，F1分数提升至0.81；同时使用STM和LTM时，F1分数达到0.90。此外，校准指标也显著改善，Brier分数从0.244降至0.090，ECE从0.222降至0.044，表明预测结果的可靠性得到了显著提升。

🎯 应用场景

该研究成果可应用于建筑、制造、物流等动态环境中，通过外骨骼系统为工人提供智能辅助，降低劳动强度，提高工作效率和安全性。未来，该技术还可扩展到其他人机协作场景，例如医疗康复、灾难救援等，实现更智能、更安全的人机交互。

📄 摘要（原文）

Construction tasks are inherently unpredictable, with dynamic environments and safety-critical demands posing significant risks to workers. Exoskeletons offer potential assistance but falter without accurate intent recognition across diverse locomotion modes. This paper presents a locomotion prediction agent leveraging Large Language Models (LLMs) augmented with memory systems, aimed at improving exoskeleton assistance in such settings. Using multimodal inputs - spoken commands and visual data from smart glasses - the agent integrates a Perception Module, Short-Term Memory (STM), Long-Term Memory (LTM), and Refinement Module to predict locomotion modes effectively. Evaluation reveals a baseline weighted F1-score of 0.73 without memory, rising to 0.81 with STM, and reaching 0.90 with both STM and LTM, excelling with vague and safety-critical commands. Calibration metrics, including a Brier Score drop from 0.244 to 0.090 and ECE from 0.222 to 0.044, affirm improved reliability. This framework supports safer, high-level human-exoskeleton collaboration, with promise for adaptive assistive systems in dynamic industries.

Interpretable Locomotion Prediction in Construction Using a Memory-Driven LLM Agent With Chain-of-Thought Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理