IoT-Brain: Grounding LLMs for Semantic-Spatial Sensor Scheduling
作者: Zhaomeng Zhou, Lan Zhang, Junyang Wang, Mu Yuan, Junda Lin, Jinke Song
分类: cs.AI, cs.MA, cs.NI
发布日期: 2026-04-09
备注: To appear in ACM MobiCom 2026; 13 pages, 12 figures
💡 一句话要点
IoT-Brain:通过空间轨迹图STG连接LLM与物理世界,实现语义空间传感器调度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 传感器调度 空间轨迹图 神经符号 物联网
📋 核心要点
- 现有基于大规模传感器网络的智能系统缺乏从语义理解到物理执行的有效桥梁,尤其是在传感器调度方面。
- 论文提出空间轨迹图(STG)这一神经符号范式,将开放式规划转化为可验证的图优化问题,弥合LLM与物理世界的鸿沟。
- 实验表明,IoT-Brain在任务成功率上提升显著,同时降低了计算成本和网络带宽,验证了STG的有效性。
📝 摘要(中文)
大规模传感器网络驱动的智能系统正从预定义监控转向意图驱动操作,这揭示了一个关键的语义到物理映射鸿沟。大型语言模型(LLM)擅长语义理解,但现有的以感知为中心的流程是回顾性的,忽略了何时以及感知什么这一根本决策。我们将这种主动决策形式化为语义空间传感器调度(S3),并证明直接的LLM规划由于表示、推理和优化方面的固有差距而不可靠。为了弥合这些差距,我们引入了空间轨迹图(STG),这是一种神经符号范式,它遵循先验证后提交的原则,将开放式规划转化为可验证的图优化问题。基于STG,我们实现了IoT-Brain,一个具体的系统实例,并构建了TopoSense-Bench,一个校园规模的基准,包含跨2510个摄像头的5250个自然语言查询。评估表明,IoT-Brain的任务成功率比最强的搜索密集型方法提高了37.6%,同时运行速度快近2倍,使用的prompt token减少了6.6倍。在实际部署中,它接近可靠性上限,同时减少了4.1倍的网络带宽,为LLM与物理世界进行前所未有的可靠性和效率的交互提供了一个基础框架。
🔬 方法详解
问题定义:论文旨在解决语义空间传感器调度(S3)问题,即如何根据自然语言意图,合理安排传感器(如摄像头)在何时何地进行感知。现有方法主要依赖于预定义的监控规则或回顾性的感知流程,无法充分利用LLM的语义理解能力进行主动规划,导致效率低下和任务成功率不高。
核心思路:论文的核心思路是利用空间轨迹图(STG)将LLM的语义理解与物理世界的空间信息相结合,实现可验证的传感器调度。STG将开放式的LLM规划转化为一个图优化问题,通过“先验证后提交”的机制,确保规划方案的合理性和可行性。
技术框架:IoT-Brain系统的整体架构包含以下几个主要模块:1) LLM意图解析模块,负责将自然语言查询转化为结构化的语义表示;2) 空间轨迹图(STG)构建模块,基于环境地图和传感器信息构建STG;3) 规划与验证模块,利用LLM在STG上进行路径规划,并进行验证;4) 传感器调度执行模块,将规划结果转化为具体的传感器控制指令。
关键创新:论文的关键创新在于提出了空间轨迹图(STG)这一神经符号范式,它将LLM的语义推理能力与物理世界的空间约束相结合,实现了可验证的传感器调度。与传统的基于规则或搜索的方法相比,STG能够更有效地利用LLM的知识和推理能力,提高任务成功率和效率。
关键设计:STG的关键设计包括:1) 节点表示:每个节点代表一个空间位置和时间戳,包含传感器观测信息和语义信息;2) 边表示:边代表节点之间的空间和时间关系,包含移动成本和约束条件;3) 验证机制:利用LLM对规划路径进行验证,确保其满足语义约束和物理约束。此外,论文还设计了相应的损失函数来优化STG的构建和规划过程,例如,鼓励路径的平滑性和减少能量消耗。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IoT-Brain在TopoSense-Bench基准测试中,任务成功率比最强的搜索密集型方法提高了37.6%,同时运行速度快近2倍,使用的prompt token减少了6.6倍。在真实场景部署中,IoT-Brain在接近可靠性上限的同时,减少了4.1倍的网络带宽消耗,充分验证了其有效性和高效性。
🎯 应用场景
该研究成果可广泛应用于智能安防、智能交通、智能楼宇等领域。例如,在智能安防中,可以根据用户的自然语言指令,自动调度摄像头进行目标追踪和异常检测;在智能交通中,可以根据交通事件的描述,自动调整交通信号灯和监控摄像头,提高交通效率和安全性。该研究为LLM与物理世界的交互提供了一个基础框架,具有重要的实际价值和未来影响。
📄 摘要(原文)
Intelligent systems powered by large-scale sensor networks are shifting from predefined monitoring to intent-driven operation, revealing a critical Semantic-to-Physical Mapping Gap. While large language models (LLMs) excel at semantic understanding, existing perception-centric pipelines operate retrospectively, overlooking the fundamental decision of what to sense and when. We formalize this proactive decision as Semantic-Spatial Sensor Scheduling (S3) and demonstrate that direct LLM planning is unreliable due to inherent gaps in representation, reasoning, and optimization. To bridge these gaps, we introduce the Spatial Trajectory Graph (STG), a neuro-symbolic paradigm governed by a verify-before-commit discipline that transforms open-ended planning into a verifiable graph optimization problem. Based on STG, we implement IoT-Brain, a concrete system embodiment, and construct TopoSense-Bench, a campus-scale benchmark with 5,250 natural-language queries across 2,510 cameras. Evaluations show that IoT-Brain boosts task success rate by 37.6% over the strongest search-intensive methods while running nearly 2 times faster and using 6.6 times fewer prompt tokens. In real-world deployment, it approaches the reliability upper bound while reducing 4.1 times network bandwidth, providing a foundational framework for LLMs to interact with the physical world with unprecedented reliability and efficiency.