StreamSplit: Continuous Audio Representation Learning via Uncertainty-Guided Adaptive Splitting

作者: Minh K. Quan, Pubudu N. Pathirana

分类: cs.DC, cs.AI, cs.LG

发布日期: 2026-05-26

备注: Accepted at ACM MobiSys 2026

💡 一句话要点

StreamSplit：通过不确定性引导的自适应分割实现连续音频表征学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 边缘计算 对比学习 音频表征学习 强化学习 自适应分割 资源优化 流式处理

📋 核心要点

边缘设备资源受限与对比学习大批量需求冲突，导致模型精度下降或产生不可接受的延迟和带宽成本。
StreamSplit通过分布式的流式框架和不确定性引导的自适应分割器，在边缘设备上实现高效的对比学习。
实验表明，StreamSplit在降低延迟、带宽和能耗的同时，保持了与服务器中心化模型相近的精度。

📝 摘要（中文）

本文提出StreamSplit框架，旨在解决边缘设备上大规模对比学习（CL）面临的资源限制问题。StreamSplit通过解耦表征质量与本地批大小，并使用可处理的混合损失来维持稀疏更新下的模型保真度，从而使流式CL在异构ARM客户端平台上可行。该框架引入了一种基于分布的流式处理方法，以及一种不确定性引导的自适应分割器，该分割器使用轻量级强化学习（RL）策略来动态地划分计算。该策略结合了实时资源监控和嵌入模糊性，以优化准确性-延迟权衡。在Raspberry Pi 4和Apple M2等硬件上的评估表明，StreamSplit相比于服务器中心化的基线方法，可将单样本延迟降低高达4.7倍，带宽降低77.1%，能耗降低52.3%，同时保持精度在服务器中心化模型2.2%以内。

🔬 方法详解

问题定义：现有的大规模对比学习方法依赖于大批量数据，这在资源受限的边缘设备上难以实现。直接在边缘设备上使用小批量数据会导致模型精度下降，而将数据卸载到云端则会引入不可接受的延迟和带宽开销。现有的模型压缩方法无法适应边缘环境的运行时波动性。因此，需要一种能够在边缘设备上高效运行，同时保持模型精度的对比学习方法。

核心思路：StreamSplit的核心思路是将连续的音频流分割成适合边缘设备处理的小块，并利用一种混合损失函数来弥补小批量数据带来的精度损失。通过引入不确定性引导的自适应分割器，动态地调整计算的分配，以在准确性和延迟之间取得最佳平衡。这种方法允许模型在资源有限的边缘设备上进行训练，而无需将所有数据都发送到云端。

技术框架：StreamSplit框架主要包含两个核心模块：基于分布的流式框架和不确定性引导的自适应分割器。基于分布的流式框架负责将连续的音频流分割成小块，并使用混合损失函数进行训练。不确定性引导的自适应分割器则根据实时资源监控和嵌入模糊性，动态地调整计算的分配。整个流程包括音频输入、特征提取、分割、嵌入、混合损失计算和模型更新等步骤。

关键创新：StreamSplit的关键创新在于其不确定性引导的自适应分割器。该分割器使用强化学习策略，根据实时资源监控和嵌入模糊性，动态地调整计算的分配。这种自适应性使得StreamSplit能够根据边缘设备的资源状况，在准确性和延迟之间取得最佳平衡。与静态模型压缩方法相比，StreamSplit能够更好地适应边缘环境的运行时波动性。

关键设计：StreamSplit使用了一种混合损失函数，该函数结合了对比损失和知识蒸馏损失，以弥补小批量数据带来的精度损失。强化学习策略使用了一种轻量级的神经网络作为策略网络，以降低计算开销。此外，StreamSplit还使用了一种滑动窗口方法来处理连续的音频流，并使用了一种基于分布的采样方法来选择用于训练的数据。

🖼️ 关键图片

📊 实验亮点

StreamSplit在Raspberry Pi 4和Apple M2等硬件上进行了评估，结果表明，相比于服务器中心化的基线方法，StreamSplit可将单样本延迟降低高达4.7倍，带宽降低77.1%，能耗降低52.3%，同时保持精度在服务器中心化模型2.2%以内。这些结果表明，StreamSplit是一种在边缘设备上实现高效对比学习的可行方案。

🎯 应用场景

StreamSplit适用于各种需要实时音频处理的边缘计算场景，例如智能家居、智能安防、工业监控等。它可以降低延迟、带宽和能耗，提高系统的响应速度和效率。未来，该技术可以扩展到其他类型的传感器数据，并应用于更广泛的边缘计算领域，例如自动驾驶、机器人等。

📄 摘要（原文）

Large-batch Contrastive Learning (CL), the foundation of modern representation learning, is fundamentally incompatible with the volatile resource constraints of edge devices. This conflict creates a dilemma: small on-device batches degrade model fidelity, while offloading to the cloud incurs unacceptable latency and bandwidth costs. Existing solutions often resort to static model compression, which fails to adapt to the runtime volatility of edge environments. To bridge this gap, we present StreamSplit, a novel framework that makes streaming CL practical across heterogeneous ARM client platforms. StreamSplit resolves the conflict between the continuous nature of ambient audio and the discrete batch requirements of models like CLAP and COLA. We introduce: (1) A distribution-based streaming framework that decouples representation quality from local batch size, using a tractable Hybrid Loss to maintain fidelity despite sparse updates; and (2) An Uncertainty-Guided Adaptive Splitter that uses a lightweight Reinforcement Learning (RL) policy to dynamically partition computation. Uniquely, this policy integrates real-time resource monitoring with embedding ambiguity to optimize the accuracy-latency trade-off on the fly. We evaluate StreamSplit on diverse hardware, from the resource-constrained Raspberry Pi 4 to the high-performance Apple M2. Results demonstrate that StreamSplit reduces per-sample latency by up to 4.7x and cuts bandwidth by 77.1% and energy by 52.3% compared to server-centric baselines. Crucially, it maintains accuracy within 2.2% of server-centric models, proving that adaptive, distributed learning is a viable path for the modern edge ecosystem.

StreamSplit: Continuous Audio Representation Learning via Uncertainty-Guided Adaptive Splitting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理