Using Large Language Models to Compare Explainable Models for Smart Home Human Activity Recognition
作者: Michele Fiori, Gabriele Civitarese, Claudio Bettini
分类: cs.HC, cs.AI
发布日期: 2024-07-24
备注: Accepted for publication at UbiComp / ISWC 2024's XAIforU workshop
💡 一句话要点
提出利用大型语言模型评估可解释模型以解决智能家居活动识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释人工智能 智能家居 人类活动识别 大型语言模型 自动评估 深度学习 医疗保健
📋 核心要点
- 现有的深度学习模型在活动识别中被视为黑箱,非专业用户难以理解其输出,降低了信任度。
- 本文提出利用大型语言模型自动评估不同的可解释人工智能方法,以便为非专业用户提供最佳的解释方案。
- 初步实验结果显示,使用大型语言模型的评估方法与传统用户调查结果一致,具有较好的有效性和可靠性。
📝 摘要(中文)
在智能环境中,通过非侵入性传感器识别日常活动能够支持多种医疗保健应用。监测个体在家中的活动表现及其随时间的变化,可以揭示健康问题的早期症状,如认知衰退。现有方法多采用深度学习模型,但这些模型常被视为黑箱,非专业用户如临床医生难以信任和理解其输出。因此,针对人类活动识别的可解释人工智能(XAI)方法应运而生,旨在为这些模型提供直观的自然语言解释。不同的XAI方法生成不同的解释,其有效性通常通过用户调查进行评估,但这在成本和公平性上存在挑战。本文提出了一种使用大型语言模型(LLMs)进行自动评估的方法,以在候选池中识别最适合非专业用户的XAI方法。初步结果表明,LLM评估与用户调查结果一致。
🔬 方法详解
问题定义:本文旨在解决现有深度学习模型在智能家居活动识别中的可解释性不足问题,尤其是非专业用户对模型输出的信任和理解困难。
核心思路:通过引入大型语言模型(LLMs),自动评估不同的可解释人工智能方法,从而识别出最适合非专业用户的解释方式,降低用户调查的成本和复杂性。
技术框架:整体框架包括数据收集、模型训练、可解释性方法生成及评估模块。首先收集活动识别数据,然后训练深度学习模型,接着应用不同的XAI方法生成解释,最后使用LLMs进行评估。
关键创新:本研究的创新点在于利用大型语言模型进行自动化评估,替代传统的用户调查方法,从而提高评估的效率和公平性。与现有方法相比,LLM评估能够更快速地识别出最佳的可解释性方案。
关键设计:在模型训练中,采用了特定的损失函数以优化活动识别的准确性,同时在可解释性方法中,设计了多种自然语言生成策略,以确保生成的解释对非专业用户友好。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用大型语言模型进行的自动评估与传统用户调查结果高度一致,验证了该方法的有效性。初步结果显示,LLM评估在识别最佳可解释性方案方面具有显著优势,能够有效降低评估成本。
🎯 应用场景
该研究的潜在应用领域包括智能家居、老年人护理及健康监测等。通过提高模型的可解释性,能够帮助医疗专业人员更好地理解和信任模型输出,从而在早期识别健康问题方面发挥重要作用。未来,该方法还可扩展到其他领域的可解释人工智能应用中。
📄 摘要(原文)
Recognizing daily activities with unobtrusive sensors in smart environments enables various healthcare applications. Monitoring how subjects perform activities at home and their changes over time can reveal early symptoms of health issues, such as cognitive decline. Most approaches in this field use deep learning models, which are often seen as black boxes mapping sensor data to activities. However, non-expert users like clinicians need to trust and understand these models' outputs. Thus, eXplainable AI (XAI) methods for Human Activity Recognition have emerged to provide intuitive natural language explanations from these models. Different XAI methods generate different explanations, and their effectiveness is typically evaluated through user surveys, that are often challenging in terms of costs and fairness. This paper proposes an automatic evaluation method using Large Language Models (LLMs) to identify, in a pool of candidates, the best XAI approach for non-expert users. Our preliminary results suggest that LLM evaluation aligns with user surveys.