Learning to See Inside Opaque Liquid Containers using Speckle Vibrometry

📄 arXiv: 2507.20757v1 📥 PDF

作者: Matan Kichler, Shai Bagon, Mark Sheinin

分类: cs.CV, cs.AI

发布日期: 2025-07-28

备注: ICCV 2025


💡 一句话要点

提出基于散斑振动法的液位检测方法,用于识别不透明容器内的液体含量

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 液位检测 散斑振动法 计算机视觉 Transformer 非接触式检测

📋 核心要点

  1. 传统视觉系统难以获取物体内部信息,例如无法判断封闭容器的液位,存在局限性。
  2. 利用容器表面微小振动与内部液位的相关性,提出基于散斑振动传感的液位检测方法。
  3. 实验表明,该方法能有效检测多种日常容器的液位,并对振动源和容器实例具有良好的泛化性。

📝 摘要(中文)

本文旨在扩展计算机视觉的应用范围,提出了一种新颖的任务:通过感知不透明容器表面的微小振动来推断其内部隐藏的液位。该方法首次实现了对多个密封容器液位的远程、同时检测,无需物理操作和手动称重。首先,我们提出了一种基于散斑的新型振动传感系统,用于同步捕获二维网格点上的场景振动。我们使用该系统高效、远程地捕获了各种日常液体容器的振动响应数据集。然后,我们开发了一种基于Transformer的方法来分析捕获的振动,并对容器类型及其测量时的隐藏液位进行分类。我们的架构对振动源具有不变性,从而为受控和环境场景声源产生正确的液位估计。此外,我们的模型可以推广到已知类别中未见过的容器实例(例如,训练六罐可乐中的五罐,测试第六罐)和液位。我们通过恢复各种日常容器中的液位来展示我们的方法。

🔬 方法详解

问题定义:现有计算机视觉方法无法直接感知不透明容器内部的液位信息,需要人工干预或破坏性检测。传统方法效率低、成本高,且难以实现远程、非接触式检测。因此,如何利用非侵入式手段准确推断不透明容器内的液位是一个重要的挑战。

核心思路:论文的核心思路是利用容器表面的微小振动与内部液位之间的物理关系。不同液位会导致容器表面对外部振动的响应不同。通过精确测量和分析这些振动模式,可以推断出容器内部的液位。这种方法无需打开容器,实现了非接触式、无损检测。

技术框架:该方法主要包含两个阶段:数据采集和液位预测。首先,使用基于散斑的振动传感系统,在二维网格上同步捕获容器表面的振动响应。然后,将捕获的振动数据输入到基于Transformer的深度学习模型中进行分析。该模型学习振动模式与液位之间的映射关系,最终输出容器类型和液位估计。

关键创新:该方法的主要创新在于:1) 提出了一种基于散斑的新型振动传感系统,能够高效、远程地捕获容器表面的振动信息。2) 开发了一种基于Transformer的液位预测模型,该模型对振动源具有不变性,能够适应不同的环境噪声和振动模式。3) 实现了对未知容器实例的泛化能力,即在训练集上未出现过的同类容器也能准确预测液位。

关键设计:散斑振动传感系统利用激光照射容器表面产生的散斑图案,通过分析散斑图案的变化来测量微小振动。Transformer模型采用自注意力机制,能够捕捉振动数据中的长程依赖关系。损失函数的设计旨在最小化预测液位与真实液位之间的误差,同时考虑容器类型的分类准确率。具体参数设置和网络结构细节未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在各种日常容器上进行了实验验证,结果表明能够准确恢复液位信息。该模型不仅对受控环境下的振动源有效,而且在环境噪声下也能保持良好的性能。此外,该模型还展现了良好的泛化能力,能够对训练集中未见过的同类容器进行准确的液位预测。具体的性能数据和提升幅度在摘要中未给出,属于未知信息。

🎯 应用场景

该技术可应用于工业生产中的液位监测、食品饮料行业的质量控制、以及危险化学品的安全检测等领域。通过远程、非接触式地检测容器内的液位,可以提高生产效率、降低人工成本、保障产品质量,并减少安全风险。未来,该技术有望集成到自动化生产线和智能仓储系统中,实现智能化液位管理。

📄 摘要(原文)

Computer vision seeks to infer a wide range of information about objects and events. However, vision systems based on conventional imaging are limited to extracting information only from the visible surfaces of scene objects. For instance, a vision system can detect and identify a Coke can in the scene, but it cannot determine whether the can is full or empty. In this paper, we aim to expand the scope of computer vision to include the novel task of inferring the hidden liquid levels of opaque containers by sensing the tiny vibrations on their surfaces. Our method provides a first-of-a-kind way to inspect the fill level of multiple sealed containers remotely, at once, without needing physical manipulation and manual weighing. First, we propose a novel speckle-based vibration sensing system for simultaneously capturing scene vibrations on a 2D grid of points. We use our system to efficiently and remotely capture a dataset of vibration responses for a variety of everyday liquid containers. Then, we develop a transformer-based approach for analyzing the captured vibrations and classifying the container type and its hidden liquid level at the time of measurement. Our architecture is invariant to the vibration source, yielding correct liquid level estimates for controlled and ambient scene sound sources. Moreover, our model generalizes to unseen container instances within known classes (e.g., training on five Coke cans of a six-pack, testing on a sixth) and fluid levels. We demonstrate our method by recovering liquid levels from various everyday containers.