SensingAgents: A Multi-Agent Collaborative Framework for Robust IMU Activity Recognition

📄 arXiv: 2605.04608v1 📥 PDF

作者: Naiyu Zheng, Tianlong Yu, Haochen Yin, Xiaoyi Fan, Xiping Hu, Zhimeng Yin

分类: cs.AI

发布日期: 2026-05-06


💡 一句话要点

提出SensingAgents多智能体框架,提升IMU活动识别的鲁棒性和零样本性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 活动识别 惯性测量单元 大型语言模型 零样本学习

📋 核心要点

  1. 现有基于IMU的活动识别模型依赖大量标注数据,且在传感器位置变化时表现不佳,缺乏透明推理。
  2. SensingAgents利用LLM驱动的多智能体系统,模拟专家协作,解决传感器位置依赖和数据冲突问题。
  3. 实验表明,SensingAgents在零样本学习中显著优于现有模型,尤其在复杂场景下提升明显。

📝 摘要(中文)

本文提出SensingAgents,一种用于鲁棒IMU活动识别的多智能体协作框架。现有基于深度学习的HAR模型过度依赖标注数据,存在位置特定歧义,且缺乏透明的推理过程。SensingAgents借鉴了高级智能体框架,利用大型语言模型(LLM)将智能体组织成特定角色:一组分析师智能体用于位置特定的传感器分析(手臂、手腕、腰带、口袋),一对辩护人智能体通过动态和静态辩证辩论解决传感器冲突,以及一个决策智能体,确保传感器漂移或故障下的可靠性。在Shoaib数据集上的评估表明,SensingAgents显著优于最先进的单智能体和多智能体LLM模型,在零样本设置中实现了79.5%的准确率,比现有智能体模型高29%,比深度学习基线高9.4%,尤其是在多传感器数据冲突或嘈杂的复杂场景中。这项工作突出了多智能体协作推理在提高普适传感系统鲁棒性和可解释性方面的潜力。

🔬 方法详解

问题定义:现有基于IMU的活动识别方法,特别是深度学习方法,面临着对大量标注数据的依赖,以及对传感器位置的敏感性。当传感器放置在不同位置(例如手臂、口袋)时,模型性能会显著下降。此外,这些模型通常缺乏可解释性,难以理解其决策过程。

核心思路:SensingAgents的核心思路是模拟人类专家协作解决问题的过程。通过构建一个多智能体系统,每个智能体扮演特定的角色,例如传感器数据分析师、冲突仲裁者和最终决策者。利用大型语言模型(LLM)赋予智能体推理和决策能力,从而提高系统的鲁棒性和可解释性。

技术框架:SensingAgents框架包含以下几个主要模块:1) 分析师智能体:针对不同传感器位置(手臂、手腕、腰带、口袋)部署多个分析师智能体,每个智能体负责分析特定位置的传感器数据,并生成初步的活动识别结果。2) 辩护人智能体:一对辩护人智能体,分别代表不同的观点,通过动态和静态辩论来解决分析师智能体之间的冲突。动态辩论是指智能体之间进行多轮对话,互相质疑和反驳。静态辩论是指智能体根据预定义的规则和知识进行推理。3) 决策智能体:负责整合分析师智能体和辩护人智能体的输出,做出最终的活动识别决策。决策智能体还会考虑传感器漂移或故障等因素,以确保系统的可靠性。

关键创新:SensingAgents的关键创新在于其多智能体协作框架,该框架能够有效地利用LLM的推理能力,解决传统方法难以处理的传感器位置依赖和数据冲突问题。与现有的单智能体或简单的多智能体模型相比,SensingAgents能够更好地模拟人类专家的协作过程,从而提高系统的鲁棒性和可解释性。

关键设计:SensingAgents的关键设计包括:1) 智能体角色定义:精心设计了分析师、辩护人和决策者等角色,每个角色负责不同的任务,并相互协作。2) 辩论机制:采用了动态和静态辩论相结合的机制,以有效地解决传感器数据冲突。3) LLM提示工程:针对不同的智能体角色,设计了特定的LLM提示,以引导LLM进行推理和决策。4) 数据集选择:使用了Shoaib数据集进行评估,该数据集包含多个传感器位置的数据,能够有效地评估SensingAgents的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SensingAgents在Shoaib数据集上进行了评估,结果表明其在零样本设置下达到了79.5%的准确率,比现有智能体模型高29%,比深度学习基线高9.4%。尤其是在多传感器数据冲突或嘈杂的复杂场景中,SensingAgents的性能提升更为显著。这些结果表明,SensingAgents能够有效地提高IMU活动识别的鲁棒性和零样本性能。

🎯 应用场景

SensingAgents可应用于移动健康、智能环境和人机交互等领域。例如,它可以用于监测老年人的日常活动,及时发现异常情况并发出警报。在智能家居中,它可以根据用户的活动自动调节环境设置。在人机交互中,它可以根据用户的活动意图提供个性化的服务。该研究的未来影响在于推动普适传感系统的智能化和个性化发展。

📄 摘要(原文)

Human Activity Recognition (HAR) using Inertial Measurement Unit (IMU) sensors is a cornerstone of mobile health, smart environments, and human-computer interaction. However, current deep learning-based HAR models often struggle with heavy reliance on labeled data, position-specific ambiguity, and a lack of transparent reasoning. Inspired by the advanced agents framework, which emulates a collaborative agent using Large Language Models (LLMs), we propose SensingAgents, a novel multi-agent system for robust IMU activity recognition. SensingAgents organizes LLM-powered agents into specialized roles: a group of Analyst Agents for position-specific sensor analysis (arm, wrist, belt, pocket), a pair of Advocate Agents that resolves sensor conflicts through dynamic and static dialectical debates, and a Decision Agent that ensures reliability under sensor drift or failure. Evaluation on the Shoaib dataset demonstrates that SensingAgents significantly outperforms state-of-the-art single-agent and multi-agent LLM models, achieving an accuracy of 79.5% in a zero setting--29% higher than existing agent models and 9.4% higher than deep learning baselines--particularly in complex scenarios where multi-sensor data is conflicting or noisy. Our work highlights the potential of multi-agent collaborative reasoning for advancing the robustness and interpretability of ubiquitous sensing systems.