GaMi: Geometry-Agnostic Material Identification via Cross-Modal Subtractive Disentanglement

作者: Zhiwei Chen, Yijie Li, Yimo Zhang, Shiyun Shao, Yichao Chen, Dian Ding, Liang Wang, Haiwei Wu, Liwei Guo, Jie Yang, Xiaosong Zhang, Yongzhao Zhang

分类: cs.ET, cs.AI, cs.SD

发布日期: 2026-05-29

备注: 17 pages, 18 figures

💡 一句话要点

提出GaMi以解决几何变化引起的材料识别挑战

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 材料识别 多模态融合 几何变化 跨模态学习 声学传感 毫米波传感 对比学习 自适应交互

📋 核心要点

现有的材料识别方法在几何变化和模态歧义性方面存在显著不足，限制了其在实际应用中的有效性。
GaMi通过结合毫米波和声学传感，采用跨模态减法解耦框架，解决了几何变化带来的干扰，提取内在材料特征。
在对20种材料的评估中，GaMi达到了95.2%的准确率，显著优于单模态基线，展示了其在复杂几何条件下的强大性能。

📝 摘要（中文）

非接触式材料识别为具身智能的自适应交互提供了可能，但在几何变化（如方向、形状、距离）和单一模态的歧义性方面面临挑战。本文提出GaMi，一个集成毫米波和声学传感的多模态材料识别系统，能够在不受约束的几何条件下稳健运行。GaMi利用共置双模态传感器之间的几何一致性，通过内部样本的跨模态减法解耦框架，语义对齐模态并减去共享的几何上下文，从而隔离内在材料特征。此外，GaMi还结合了跨样本对比学习，以纠正由跨模态错位引起的残余干扰。通过对20种材料的广泛评估，GaMi实现了95.2%的准确率，超越了在未见几何条件下的单模态基线。

🔬 方法详解

问题定义：本文旨在解决材料识别中的几何变化引起的干扰问题，现有方法在面对不同的几何条件时表现不佳，导致识别准确率下降。

核心思路：GaMi的核心思路是通过跨模态减法解耦来隔离材料的内在特征，利用双模态传感器的几何一致性来增强识别的鲁棒性。

技术框架：GaMi的整体架构包括两个主要模块：毫米波传感器和声学传感器，通过语义对齐和减法解耦来提取材料特征，并结合对比学习来处理模态间的干扰。

关键创新：GaMi的关键创新在于其跨模态减法解耦框架，能够有效地减去几何上下文的影响，专注于材料的内在特征，这与传统单模态方法有本质区别。

关键设计：在设计上，GaMi采用了特定的损失函数来优化模态对齐，并通过配对适应策略实现少样本泛化，确保在不同设备间的有效性。

🖼️ 关键图片

📊 实验亮点

GaMi在对20种材料的评估中实现了95.2%的准确率，显著优于单模态基线，展示了其在未见几何条件下的强大识别能力，提升幅度明显，验证了其方法的有效性和实用性。

🎯 应用场景

GaMi的研究成果在多个领域具有潜在应用价值，包括智能机器人、自动化检测、材料科学等。通过实现高精度的材料识别，GaMi能够促进智能系统在复杂环境中的自适应交互，提升其智能化水平和应用广度。

📄 摘要（原文）

Non-contact material identification enables adaptive interaction for embodied intelligence yet faces challenges from geometry-induced variations (e.g., orientation, shape, distance) and single-modality ambiguities. In this paper, we present GaMi, a multimodal material identification system integrating mmWave and acoustic sensing to robustly operate under unconstrained geometric conditions. By leveraging the insight of shared geometric consistency between co-located bimodal sensors, GaMi employs an intra-sample cross-modal subtractive disentanglement framework. By semantically aligning modalities and subtracting the shared geometric context, it isolates intrinsic material features. Furthermore, GaMi incorporates inter-sample contrastive learning to correct the residual interference caused by cross-modal misalignment. Additionally, a pairing-based adaptation strategy between two modalities enables few-shot generalization across devices. Extensive evaluations on 20 materials show that GaMi achieves 95.2% accuracy, outperforming single-modality baselines across unseen geometric conditions.

GaMi: Geometry-Agnostic Material Identification via Cross-Modal Subtractive Disentanglement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理