MIMII-Agent: Leveraging LLMs with Function Calling for Relative Evaluation of Anomalous Sound Detection
作者: Harsh Purohit, Tomoya Nishida, Kota Dohi, Takashi Endo, Yohei Kawaguchi
分类: eess.AS, cs.AI, cs.LG, cs.SD
发布日期: 2025-07-28
💡 一句话要点
提出MIMII-Agent以解决无真实异常声数据的评估问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 异常声音检测 无监督学习 大型语言模型 音频生成 数据增强
📋 核心要点
- 现有的异常声音检测方法在缺乏真实异常数据时,难以有效评估不同机器类型的性能。
- 本文提出利用大型语言模型生成机器特定的异常声音,克服传统方法的局限性,实现数据增强。
- 实验结果显示,合成的异常声音与真实异常声音在检测难度上具有一致的趋势,验证了方法的有效性。
📝 摘要(中文)
本文提出了一种生成机器特定异常的方法,以评估不同机器类型下无监督异常声音检测(UASD)系统的相对性能,即使在缺乏真实异常声音数据的情况下。传统的基于关键词的数据增强方法由于依赖手动定义的标签,往往产生不真实的声音,限制了其可扩展性。尽管先进的音频生成模型如MIMII-Gen显示出潜力,但通常依赖于异常训练数据,使其在缺乏多样化异常示例时效果不佳。为了解决这些局限性,本文提出了一种新颖的合成方法,利用大型语言模型(LLMs)解释故障的文本描述,并自动选择音频变换函数,将正常机器声音转换为多样且可信的异常声音。通过对仅使用五种机器类型的正常声音训练的UASD系统进行评估,验证了该方法的有效性。
🔬 方法详解
问题定义:本文旨在解决在缺乏真实异常声音数据的情况下,如何有效评估不同机器类型的无监督异常声音检测(UASD)系统的相对性能。现有方法依赖于手动标签,导致生成的声音不真实,限制了可扩展性。
核心思路:论文提出了一种新颖的合成方法,利用大型语言模型(LLMs)来解释故障的文本描述,并自动选择音频变换函数,从而将正常机器声音转换为多样且可信的异常声音。这种方法避免了对真实异常数据的依赖。
技术框架:整体架构包括文本描述解析、音频变换函数选择和声音合成三个主要模块。首先,LLMs解析故障描述,提取关键信息;然后,系统根据这些信息选择合适的音频变换函数;最后,合成出新的异常声音。
关键创新:最重要的技术创新点在于将大型语言模型与音频生成结合,能够根据文本描述自动生成多样化的异常声音。这一方法与传统的基于手动标签的生成方式有本质区别,显著提高了生成声音的真实性和多样性。
关键设计:在设计中,选择了适合的音频变换函数,并通过实验验证了不同参数设置对合成声音质量的影响。损失函数的设计也考虑了声音的真实性和多样性,以确保生成的异常声音能够有效用于UASD系统的训练和评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,合成的异常声音在不同机器类型的检测难度上与真实异常声音保持一致,验证了方法的有效性。具体而言,使用合成数据训练的UASD系统在检测性能上与使用真实异常数据的系统相当,显示出合成方法的可行性和有效性。
🎯 应用场景
该研究的潜在应用领域包括工业设备的故障检测、智能制造和机器人监控等。通过生成多样化的异常声音,能够有效提升无监督异常声音检测系统的性能,降低对真实异常数据的依赖,具有重要的实际价值和未来影响。
📄 摘要(原文)
This paper proposes a method for generating machine-type-specific anomalies to evaluate the relative performance of unsupervised anomalous sound detection (UASD) systems across different machine types, even in the absence of real anomaly sound data. Conventional keyword-based data augmentation methods often produce unrealistic sounds due to their reliance on manually defined labels, limiting scalability as machine types and anomaly patterns diversify. Advanced audio generative models, such as MIMII-Gen, show promise but typically depend on anomalous training data, making them less effective when diverse anomalous examples are unavailable. To address these limitations, we propose a novel synthesis approach leveraging large language models (LLMs) to interpret textual descriptions of faults and automatically select audio transformation functions, converting normal machine sounds into diverse and plausible anomalous sounds. We validate this approach by evaluating a UASD system trained only on normal sounds from five machine types, using both real and synthetic anomaly data. Experimental results reveal consistent trends in relative detection difficulty across machine types between synthetic and real anomalies. This finding supports our hypothesis and highlights the effectiveness of the proposed LLM-based synthesis approach for relative evaluation of UASD systems.