BeeVe: Unsupervised Acoustic State Discovery in Honey Bee Buzzing
作者: Hamze Hammami, Nidhal Abdulaziz
分类: cs.SD, cs.AI
发布日期: 2026-05-08
💡 一句话要点
提出BeeVe无监督学习框架,通过VQ-VAE实现蜜蜂蜂鸣声的声学状态自动发现
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 无监督学习 生物声学 VQ-VAE 蜂群监测 特征提取 离散码本 音频分析
📋 核心要点
- 现有生物声学方法多依赖预定义的语音模型或语义标签,难以处理缺乏明确发声机制的物种信号。
- BeeVe通过冻结PaSST特征提取器并结合VQ-VAE,在无监督条件下从原始蜂鸣声中学习离散的声学码本。
- 实验表明该方法能有效区分蜂群状态并识别出稳定的内部子状态,且在不同数据集上表现出极高的泛化能力。
📝 摘要(中文)
在无监督条件下发现生物信号的结构是计算智能领域的核心挑战。现有生物声学方法通常依赖于预定义的语音产生模型或语义单元,导致对非发声物种的研究受限。本文提出了BeeVe,一个用于蜜蜂蜂鸣声学状态发现的无监督框架。BeeVe利用预训练的Patchout Spectrogram Transformer (PaSST) 作为冻结特征提取器,并在其嵌入空间上训练向量量化变分自编码器 (VQ-VAE),从而直接从无标签的蜂巢音频中学习有限的离散声学码本。该过程无需标签、预训练任务或对比学习目标。事后评估显示,所学码本能有效区分有蜂王与无蜂王状态(Jensen-Shannon散度为0.609-0.688),且无蜂王状态可进一步分解为三个稳定的内部子状态。序列分析证实了其非随机的结构特征,且在未见数据上表现出极高的泛化性。该研究证明了无监督离散码本学习在解析非发声生物信号方面的有效性,为非侵入式蜂巢健康监测提供了新路径。
🔬 方法详解
问题定义:论文旨在解决非发声生物(如蜜蜂)声学信号的结构化分析难题。现有方法通常假设存在明确的语音产生模型,这在处理复杂的群体蜂鸣信号时往往失效,导致无法在无标注数据中自动发现潜在的生物学状态。
核心思路:利用深度学习的表征能力,将复杂的连续音频信号映射到离散的码本空间。通过解耦特征提取与状态聚类,实现对声学特征的无监督建模,从而捕捉蜂群行为的潜在规律。
技术框架:BeeVe架构分为两阶段:首先,使用在音频分类任务上预训练的PaSST模型作为冻结的特征提取器,将音频片段转化为高维嵌入;其次,将这些嵌入输入到VQ-VAE中,通过向量量化过程将连续特征映射为离散的码本索引,实现对声学特征的压缩与重构。
关键创新:该方法完全摒弃了标签、预训练任务或对比学习目标,仅依赖于VQ-VAE的重构损失与码本学习,证明了纯无监督学习在生物声学信号结构发现中的可行性与鲁棒性。
关键设计:采用了PaSST作为特征提取骨干,确保了对频谱特征的有效捕捉;VQ-VAE的码本大小(Codebook size)是关键超参数,实验证明该模型在不同码本规模下均能保持状态发现的稳定性,且通过Jaccard相似度验证了其在不同录音间的泛化性能。
🖼️ 关键图片
📊 实验亮点
实验结果显示,BeeVe学习到的声学码本在区分有蜂王与无蜂王状态时表现优异,Jensen-Shannon散度达到0.609至0.688。此外,模型成功将无蜂王状态分解为三个稳定的子状态,且在未见数据上的Jaccard相似度高达0.947,证明了该方法在不同实验环境下的高度可重复性与泛化能力。
🎯 应用场景
该研究主要应用于精准农业与生态监测领域,特别是针对蜜蜂蜂巢的非侵入式健康监测。通过实时分析蜂群的声学特征,可以自动识别蜂群是否失去蜂王或处于异常状态,为蜂农提供早期预警,从而降低蜂群损失,提升养蜂业的智能化管理水平。
📄 摘要(原文)
Discovering structure in biological signals without supervision is a fundamental problem in computational intelligence, yet existing bioacoustic methods assume vocal production models or predefined semantic units, leaving non-vocal species poorly served. This work introduces BeeVe, an unsupervised framework for acoustic state discovery in collective honey bee buzzing. BeeVe uses the self-supervised Patchout Spectrogram Transformer (PaSST) as a frozen feature extractor, then trains a Vector-Quantized Variational Autoencoder (VQ-VAE) without labels on those embeddings, learning a finite discrete codebook of acoustic tokens directly from unlabelled hive audio. No labels, pretext tasks, or contrastive objectives are used at any stage. Post-hoc evaluation against known queen status reveals that the learned tokens separate queenright and queenless conditions with Jensen-Shannon Divergence values between 0.609 and 0.688, and that the queenless condition further decomposes into three internally coherent sub-states stable across experiments with different codebook sizes and random seeds. Token transition analysis confirms non-random sequential structure (p << 0.001) across all experiments. Generalisation to unseen recordings preserves both token overlap (Jaccard = 0.947) and global manifold topology. These results demonstrate that unsupervised discrete codebook learning can recover repeatable acoustic structure from a non-vocal biological signal without annotation, opening a path toward non-invasive acoustic hive health monitoring.