SMH-Bench: Benchmarking LLM Agents for Environment-Grounded Reasoning and Action in Smart Homes

作者: Kuan Li, Shuo Zhang, Huacan Wang, Fangzhou Yu, Zecheng Sheng, Yi Gu, Weipeng Ming, Lei Xue, Chen Liu, Sen Hu, Ronghao Chen, Siyue Lin, Yuqing Hou, Xiaofeng Mou, Yi Xu

分类: cs.AI

发布日期: 2026-06-01

💡 一句话要点

SMH-Bench：用于评估LLM智能家居环境推理与行动能力的综合基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 智能家居 大型语言模型 基准测试 环境推理 自动化任务 HomeEnv LLM Agent

📋 核心要点

现有智能家居基准测试侧重于指令到API映射，缺乏对LLM在真实家庭场景中推理和交互能力的评估。
SMH-Bench构建于HomeEnv之上，提供了一个包含1100个任务的综合基准，用于评估LLM在智能家居环境中的表现。
实验结果表明，LLM在自动化任务调度、歧义处理和个性化推理方面存在不足，尤其是在复杂环境中。

📝 摘要（中文）

本文提出了SMH-Bench，一个用于评估大型语言模型（LLM）在智能家居环境中表现的综合基准。现有的智能家居基准通常侧重于静态指令到API的映射或有限的模拟，无法评估LLM在真实家庭场景中进行推理、交互和可靠行动的能力。SMH-Bench基于HomeEnv构建，包含1100个高质量任务，涵盖7个类别和22个细粒度子类别，并根据房屋的复杂程度进行分层，从小型公寓到包含135个设备的多房间环境。实验表明，尽管前沿LLM在显式控制和查询任务上表现出色，但在自动化任务调度、歧义处理和个性化推理方面仍然存在显著弱点，尤其是在房屋复杂性增加时。SMH-Bench旨在促进更可靠、上下文感知和可实际部署的智能家居代理的开发。

🔬 方法详解

问题定义：现有智能家居基准测试主要关注静态的指令到API的映射，或者使用有限的模拟环境，无法充分评估LLM在真实智能家居场景中进行推理、交互和可靠行动的能力。这些基准测试忽略了智能家居环境的复杂性，例如设备间的依赖关系、用户偏好以及环境状态的影响。因此，需要一个更全面、更真实的基准来评估LLM在智能家居环境中的能力。

核心思路：SMH-Bench的核心思路是构建一个基于可执行和可验证的智能家居模拟器HomeEnv的综合基准，该基准包含大量高质量的任务，涵盖各种智能家居场景，并根据房屋的复杂程度进行分层。通过在不同复杂度的房屋环境中评估LLM的表现，可以更全面地了解LLM在智能家居环境中的推理和行动能力。

技术框架：SMH-Bench基于HomeEnv智能家居模拟器构建，包含以下主要组成部分：1) 任务定义：定义了1100个高质量任务，涵盖7个类别和22个细粒度子类别，例如设备控制、场景自动化、信息查询等。2) 房屋环境：提供了不同复杂度的房屋环境，从小型公寓到包含135个设备的多房间环境。3) 评估指标：定义了用于评估LLM在智能家居环境中表现的指标，例如任务完成率、执行效率、用户满意度等。

关键创新：SMH-Bench的关键创新在于其综合性和真实性。它不仅包含大量高质量的任务，而且还提供了不同复杂度的房屋环境，以及可执行和可验证的智能家居模拟器HomeEnv。这使得SMH-Bench能够更全面、更真实地评估LLM在智能家居环境中的推理和行动能力。

关键设计：SMH-Bench的关键设计包括：1) 任务分层：根据房屋的复杂程度将任务分为简单、中等和复杂三个等级，以便评估LLM在不同复杂度的环境中的表现。2) 任务多样性：涵盖7个类别和22个细粒度子类别，以评估LLM在各种智能家居场景中的能力。3) 可执行性：基于HomeEnv构建，确保任务的可执行性和可验证性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，尽管前沿LLM在显式控制和查询任务上表现出色，但在自动化任务调度、歧义处理和个性化推理方面仍然存在显著弱点，尤其是在房屋复杂性增加时。这表明现有LLM在智能家居环境中的应用仍然面临挑战，需要进一步的研究和改进。

🎯 应用场景

SMH-Bench可用于评估和比较不同LLM在智能家居环境中的表现，从而促进更可靠、上下文感知和可实际部署的智能家居代理的开发。该基准测试可以帮助研究人员和开发人员识别LLM在智能家居应用中的优势和劣势，并指导他们改进LLM的性能，最终提升智能家居的用户体验。

📄 摘要（原文）

Smart homes are evolving toward complex state-dependent living environments, requiring Large Language Models (LLMs) to reason over user intent, preferences, and multi-device interactions. However, existing smart-home benchmarks often focus on static instruction-to-API mapping or limited simulations, failing to evaluate whether LLMs can reason, interact, and act reliably in realistic household scenarios. To address these limitations, we introduce SMH-Bench, a comprehensive benchmark for evaluating LLMs in smart-home environments. Built upon HomeEnv, an executable and verifiable smart-home simulator, SMH-Bench contains 1,100 high-quality tasks spanning 7 categories and 22 fine-grained subcategories. It further stratifies tasks across simple, medium and complex homes, ranging from small apartments to dense multi-room environments with 135 devices. Experiments show that although frontier LLMs achieve strong performance on explicit control and query tasks, they still exhibit significant weaknesses in automation task scheduling, ambiguity handling and personalized reasoning, especially as home complexity increases. We hope SMH-Bench will facilitate the development of more reliable, context-aware, and practically deployable smart-home agents.

SMH-Bench: Benchmarking LLM Agents for Environment-Grounded Reasoning and Action in Smart Homes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理