GaMi: Geometry-Agnostic Material Identification via Cross-Modal Subtractive Disentanglement

📄 arXiv: 2605.30818v1 📥 PDF

作者: Zhiwei Chen, Yijie Li, Yimo Zhang, Shiyun Shao, Yichao Chen, Dian Ding, Liang Wang, Haiwei Wu, Liwei Guo, Jie Yang, Xiaosong Zhang, Yongzhao Zhang

分类: cs.ET, cs.AI, cs.SD

发布日期: 2026-05-29

备注: 17 pages, 18 figures


💡 一句话要点

提出GaMi以解决几何变化引起的材料识别挑战

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 材料识别 多模态融合 几何变化 跨模态学习 声学传感 毫米波传感 对比学习 自适应交互

📋 核心要点

  1. 现有的材料识别方法在几何变化和模态歧义性方面存在显著不足,限制了其在实际应用中的有效性。
  2. GaMi通过结合毫米波和声学传感,采用跨模态减法解耦框架,解决了几何变化带来的干扰,提取内在材料特征。
  3. 在对20种材料的评估中,GaMi达到了95.2%的准确率,显著优于单模态基线,展示了其在复杂几何条件下的强大性能。

📝 摘要(中文)

非接触式材料识别为具身智能的自适应交互提供了可能,但在几何变化(如方向、形状、距离)和单一模态的歧义性方面面临挑战。本文提出GaMi,一个集成毫米波和声学传感的多模态材料识别系统,能够在不受约束的几何条件下稳健运行。GaMi利用共置双模态传感器之间的几何一致性,通过内部样本的跨模态减法解耦框架,语义对齐模态并减去共享的几何上下文,从而隔离内在材料特征。此外,GaMi还结合了跨样本对比学习,以纠正由跨模态错位引起的残余干扰。通过对20种材料的广泛评估,GaMi实现了95.2%的准确率,超越了在未见几何条件下的单模态基线。

🔬 方法详解

问题定义:本文旨在解决材料识别中的几何变化引起的干扰问题,现有方法在面对不同的几何条件时表现不佳,导致识别准确率下降。

核心思路:GaMi的核心思路是通过跨模态减法解耦来隔离材料的内在特征,利用双模态传感器的几何一致性来增强识别的鲁棒性。

技术框架:GaMi的整体架构包括两个主要模块:毫米波传感器和声学传感器,通过语义对齐和减法解耦来提取材料特征,并结合对比学习来处理模态间的干扰。

关键创新:GaMi的关键创新在于其跨模态减法解耦框架,能够有效地减去几何上下文的影响,专注于材料的内在特征,这与传统单模态方法有本质区别。

关键设计:在设计上,GaMi采用了特定的损失函数来优化模态对齐,并通过配对适应策略实现少样本泛化,确保在不同设备间的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GaMi在对20种材料的评估中实现了95.2%的准确率,显著优于单模态基线,展示了其在未见几何条件下的强大识别能力,提升幅度明显,验证了其方法的有效性和实用性。

🎯 应用场景

GaMi的研究成果在多个领域具有潜在应用价值,包括智能机器人、自动化检测、材料科学等。通过实现高精度的材料识别,GaMi能够促进智能系统在复杂环境中的自适应交互,提升其智能化水平和应用广度。

📄 摘要(原文)

Non-contact material identification enables adaptive interaction for embodied intelligence yet faces challenges from geometry-induced variations (e.g., orientation, shape, distance) and single-modality ambiguities. In this paper, we present GaMi, a multimodal material identification system integrating mmWave and acoustic sensing to robustly operate under unconstrained geometric conditions. By leveraging the insight of shared geometric consistency between co-located bimodal sensors, GaMi employs an intra-sample cross-modal subtractive disentanglement framework. By semantically aligning modalities and subtracting the shared geometric context, it isolates intrinsic material features. Furthermore, GaMi incorporates inter-sample contrastive learning to correct the residual interference caused by cross-modal misalignment. Additionally, a pairing-based adaptation strategy between two modalities enables few-shot generalization across devices. Extensive evaluations on 20 materials show that GaMi achieves 95.2% accuracy, outperforming single-modality baselines across unseen geometric conditions.