Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes
作者: Xinxin Jin, Zhengwei Ni, Zhengguo Sheng, Victor C. M. Leung
分类: cs.AI
发布日期: 2026-03-17
💡 一句话要点
提出双阶段意图感知框架,提升AIoT智能家居的安全性和效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AIoT 智能家居 大型语言模型 意图理解 安全 交互效率 双阶段框架
📋 核心要点
- 现有AIoT智能家居系统依赖LLM直接执行指令,易产生幻觉和错误,导致安全隐患。
- 提出双阶段意图感知框架,分离意图理解和物理执行,提升指令的有效性和安全性。
- 实验表明,该框架显著提升了指令精确匹配率和无效指令拒绝率,减少了不必要的用户交互。
📝 摘要(中文)
随着大型语言模型(LLMs)从信息提供者转变为物联网(IoT)中的具身智能体,它们在可靠性和交互效率方面面临重大挑战。直接执行LLM生成的命令通常会导致实体幻觉(例如,尝试控制不存在的设备)。同时,现有的迭代框架(例如,SAGE)存在交互频率困境,在鲁莽执行和过度用户提问之间摇摆不定。为了解决这些问题,我们提出了一个双阶段意图感知(DS-IA)框架。该框架将高层用户意图理解与低层物理执行分离。具体来说,第一阶段充当语义防火墙,通过检查房屋的当前状态来过滤掉无效指令并解决模糊命令。第二阶段采用确定性的级联验证器——一个严格的、逐步的规则检查器,按顺序验证房间、设备和能力——以确保动作在物理上是实际可行的,然后再执行。在HomeBench和SAGE基准上的大量实验表明,DS-IA实现了58.56%的精确匹配率(EM),比基线高出28%以上,并将无效指令的拒绝率提高到87.04%。在SAGE基准上的评估进一步表明,DS-IA通过平衡主动查询和基于状态的推理来解决交互频率困境。具体来说,它将自主成功率(无需不必要的用户干预即可解决任务)从42.86%提高到71.43%,同时保持了在识别真正需要人工澄清的不可约简模糊性方面的高精度。这些结果强调了该框架通过准确的环境基础来最大限度地减少用户干扰的能力。
🔬 方法详解
问题定义:现有AIoT智能家居系统直接使用大型语言模型(LLM)生成指令并执行,容易出现实体幻觉,例如控制不存在的设备。同时,现有的迭代框架(如SAGE)在执行指令时,要么过于激进,直接执行可能错误的指令,要么过于保守,频繁向用户提问确认,导致交互效率低下,即“交互频率困境”。
核心思路:论文的核心思路是将用户意图的理解和物理执行过程解耦,分为两个阶段进行处理。第一阶段作为“语义防火墙”,过滤掉无效或模糊的指令,并基于当前家居状态进行修正。第二阶段则通过严格的规则检查器,验证指令在物理上是否可行。这种分阶段处理的方式旨在提高指令执行的准确性和安全性,同时减少不必要的用户交互。
技术框架:DS-IA框架包含两个主要阶段: 1. 意图过滤阶段:该阶段接收用户指令,并检查指令中涉及的实体(如设备、房间)是否存在,以及指令是否清晰明确。如果指令无效或模糊,则拒绝执行或向用户请求澄清。 2. 执行验证阶段:该阶段接收经过过滤的指令,并使用级联验证器进行验证。级联验证器按顺序检查房间、设备和能力,确保指令在物理上是可行的。只有通过所有验证的指令才会被执行。
关键创新:该论文的关键创新在于提出了双阶段意图感知框架,将高层意图理解和低层物理执行分离。与现有方法相比,该框架能够更有效地过滤掉无效指令,减少实体幻觉,并解决交互频率困境。级联验证器的设计也保证了指令执行的安全性。
关键设计: * 级联验证器:采用严格的、逐步的规则检查器,按顺序验证房间、设备和能力,确保动作在物理上是实际可行的。 * 状态感知:第一阶段的意图过滤基于当前家居状态进行,能够识别并修正与当前状态不符的指令。 * 主动拒绝机制:对于无法通过验证的指令,系统会主动拒绝执行,避免潜在的安全风险。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DS-IA框架在HomeBench和SAGE基准测试中表现出色。在HomeBench上,DS-IA的精确匹配率(EM)达到58.56%,比基线提高了28%以上,无效指令拒绝率达到87.04%。在SAGE基准上,DS-IA将自主成功率从42.86%提高到71.43%,显著减少了不必要的用户干预。
🎯 应用场景
该研究成果可应用于各种智能家居系统,提升系统的安全性、可靠性和用户体验。通过减少错误指令的执行和不必要的用户交互,可以提高智能家居的自动化程度和智能化水平。此外,该框架的设计思路也可以推广到其他AIoT应用场景,例如智能工厂、智能医疗等。
📄 摘要(原文)
As Large Language Models (LLMs) transition from information providers to embodied agents in the Internet of Things (IoT), they face significant challenges regarding reliability and interaction efficiency. Direct execution of LLM-generated commands often leads to entity hallucinations (e.g., trying to control non-existent devices). Meanwhile, existing iterative frameworks (e.g., SAGE) suffer from the Interaction Frequency Dilemma, oscillating between reckless execution and excessive user questioning. To address these issues, we propose a Dual-Stage Intent-Aware (DS-IA) Framework. This framework separates high-level user intent understanding from low-level physical execution. Specifically, Stage 1 serves as a semantic firewall to filter out invalid instructions and resolve vague commands by checking the current state of the home. Stage 2 then employs a deterministic cascade verifier-a strict, step-by-step rule checker that verifies the room, device, and capability in sequence-to ensure the action is actually physically possible before execution. Extensive experiments on the HomeBench and SAGE benchmarks demonstrate that DS-IA achieves an Exact Match (EM) rate of 58.56% (outperforming baselines by over 28%) and improves the rejection rate of invalid instructions to 87.04%. Evaluations on the SAGE benchmark further reveal that DS-IA resolves the Interaction Frequency Dilemma by balancing proactive querying with state-based inference. Specifically, it boosts the Autonomous Success Rate (resolving tasks without unnecessary user intervention) from 42.86% to 71.43%, while maintaining high precision in identifying irreducible ambiguities that truly necessitate human clarification. These results underscore the framework's ability to minimize user disturbance through accurate environmental grounding.