MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

📄 arXiv: 2605.06897v1 📥 PDF

作者: Maximillian Chen, Xuanming Zhang, Michael Peng, Zhou Yu, Alexandros Papangelis, Yohan Jo

分类: cs.CL, cs.AI, cs.HC, cs.MM, cs.SD, eess.AS

发布日期: 2026-05-07

备注: Project Page: https://billyzhang24kobe.github.io/mist-smarthome/


💡 一句话要点

提出MIST多模态交互式语音工具调用数据集,以解决智能家居场景下复杂时空约束与动态状态追踪难题。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 智能家居 工具调用 语音交互 时空约束推理 动态状态追踪 代码生成

📋 核心要点

  1. 现有大模型在处理智能家居场景时,难以有效建模复杂的时空约束、动态设备状态追踪及混合主动式交互模式。
  2. 论文提出了MIST数据集及配套生成框架,通过合成多轮语音驱动的代码生成任务,模拟真实物理世界的IoT设备交互环境。
  3. 实验表明,当前主流多模态大模型在处理该任务时表现出显著性能鸿沟,且在复杂逻辑推理与物理约束理解上仍有较大提升空间。

📝 摘要(中文)

随着物联网(IoT)设备在物理世界中的普及,开发能够处理复杂用户体验的语音交互界面变得至关重要。尽管现代大语言模型(LLMs)已展现出强大的工具调用能力,但针对真实世界IoT设备的建模仍是一个极具挑战且研究不足的课题,其核心难点在于如何结合语音输入、时空约束建模、动态状态追踪以及混合主动式交互模式。为此,我们提出了MIST(多模态交互式语音工具调用数据集),这是一个基于IoT设备的合成多轮语音驱动代码生成任务。研究发现,开源与闭源多模态大模型在MIST任务上存在显著性能差距,且即便是顶尖的闭源模型仍有巨大的提升空间。我们开源了MIST数据集及可扩展的数据生成框架,旨在推动关于能够推理物理世界约束的混合主动式语音助手的相关研究。

🔬 方法详解

问题定义:论文旨在解决智能家居环境下,语音助手在调用IoT设备工具时面临的复杂挑战。现有方法往往忽略了物理世界中设备状态的动态变化、多轮对话中的时空约束以及用户与系统间的混合主动式交互逻辑。

核心思路:通过构建一个大规模、合成的多轮语音驱动代码生成数据集(MIST),将IoT设备控制抽象为代码生成任务。该设计旨在强制模型不仅要理解语音指令,还需推理设备状态与物理约束,从而提升模型在真实物理场景下的决策能力。

技术框架:MIST框架包含一个可扩展的数据生成引擎,能够模拟多种IoT设备类型、状态属性及用户交互场景。系统通过多轮对话模拟,要求模型根据当前的设备状态上下文,生成正确的控制代码以执行特定任务。

关键创新:该研究首次系统性地将多模态语音交互与IoT设备的时空约束推理相结合。其核心创新在于构建了一个包含动态状态追踪的基准测试,能够评估模型在处理非线性、多轮次交互时的逻辑一致性与工具调用准确性。

关键设计:数据集设计涵盖了多种复杂的交互模式,包括对设备状态的查询、条件控制以及基于时空上下文的指令解析。框架支持自定义设备配置,允许研究者通过扩展生成逻辑来模拟更复杂的家庭自动化场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,开源与闭源多模态大模型在MIST任务上存在显著性能差距,表明当前模型在处理IoT领域特定逻辑时仍面临挑战。即便是在顶尖的闭源模型上,任务完成率仍有较大提升空间,证明了MIST作为评估模型物理世界推理能力基准的有效性与难度。

🎯 应用场景

该研究主要应用于智能家居语音助手、家庭自动化系统及物联网控制平台。通过提升模型对物理世界约束的推理能力,可显著改善智能音箱在处理复杂指令时的准确性与交互体验,为构建更具自主性、能够处理多轮复杂任务的下一代智能家居代理提供技术支撑。

📄 摘要(原文)

The rise of Internet of Things (IoT) devices in the physical world necessitates voice-based interfaces capable of handling complex user experiences. While modern Large Language Models (LLMs) already demonstrate strong tool-usage capabilities, modeling real-world IoT devices presents a difficult, understudied challenge which combines modeling spatiotemporal constraints with speech inputs, dynamic state tracking, and mixed-initiative interaction patterns. We introduce MIST (the Multimodal Interactive Speech-based Tool-calling Dataset), a synthetic multi-turn, voice-driven code generation task that operates over IoT devices. We find that there is a significant gap between open- and closed-weight multimodal LLMs on MIST, and that even frontier closed-weight LLMs have substantial headroom. We release MIST and an extensible data generation framework to build related datasets in order to facilitate research on mixed-initiative voice assistants which reason about physical world constraints.