MLLM-Fabric: Multimodal Large Language Model-Driven Robotic Framework for Fabric Sorting and Selection

📄 arXiv: 2507.04351v2 📥 PDF

作者: Liman Wang, Hanyang Zhong, Tianyuan Wang, Shan Luo, Jihong Zhu

分类: cs.RO, cs.AI

发布日期: 2025-07-06 (更新: 2025-10-10)

备注: Accepted to IEEE Robotics and Automation Letters (RAL)

🔗 代码/项目: GITHUB


💡 一句话要点

提出MLLM-Fabric,利用多模态大语言模型驱动机器人进行织物分拣与选择

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 机器人 织物分拣 织物选择 监督微调 知识蒸馏 视觉触觉 压力数据

📋 核心要点

  1. 机器人纺织制造等领域对织物选择有严格的功能和质量要求,现有方法难以有效整合视觉、触觉等多模态信息。
  2. MLLM-Fabric利用多模态大语言模型,通过监督微调和解释引导的蒸馏学习,实现织物属性的准确排序和选择。
  3. 实验表明,提出的Fabric-Llama-90B模型在织物属性排序和选择可靠性上优于现有视觉语言基线模型。

📝 摘要(中文)

本文提出了一种名为MLLM-Fabric的机器人框架,该框架利用多模态大语言模型(MLLMs)进行织物分拣和选择,旨在满足机器人纺织制造、服装生产和智能零售领域对织物功能和质量的需求。该系统构建于一个多模态机器人平台之上,通过监督微调和解释引导的知识蒸馏进行训练,以对织物属性进行排序。同时,作者发布了一个包含220种不同织物的数据集,每个织物都包含RGB图像以及同步的视觉触觉和压力数据。实验结果表明,Fabric-Llama-90B在属性排序和选择可靠性方面始终优于预训练的视觉语言基线模型。代码和数据集已公开。

🔬 方法详解

问题定义:论文旨在解决机器人纺织制造、服装生产和智能零售中,如何让机器人准确高效地进行织物分拣和选择的问题。现有方法通常依赖于人工设计的特征或简单的机器学习模型,难以有效整合视觉、触觉等多模态信息,导致织物属性识别和排序的准确性不足。

核心思路:论文的核心思路是利用多模态大语言模型(MLLMs)强大的理解和推理能力,将织物分拣和选择任务转化为一个属性排序问题。通过将视觉、触觉和压力等多模态信息输入MLLM,并利用监督微调和解释引导的蒸馏学习,使模型能够学习到织物属性与多模态数据之间的复杂关系。

技术框架:MLLM-Fabric框架主要包含以下几个模块:1) 多模态机器人平台,用于采集织物的RGB图像、视觉触觉和压力数据;2) 数据集构建,包含220种不同织物,并标注了织物属性;3) 模型训练,使用监督微调和解释引导的蒸馏学习训练MLLM;4) 织物属性排序和选择模块,根据MLLM的输出结果对织物属性进行排序,并选择满足特定需求的织物。

关键创新:论文的关键创新在于将多模态大语言模型应用于织物分拣和选择任务,并提出了解释引导的蒸馏学习方法。传统的蒸馏学习通常只关注模型输出结果的相似性,而忽略了模型内部的推理过程。解释引导的蒸馏学习则利用解释信息(例如,注意力权重)来指导学生模型的学习,从而使学生模型能够更好地学习到教师模型的推理过程。

关键设计:论文使用了Fabric-Llama-90B作为MLLM的基础模型。在训练过程中,使用了交叉熵损失函数来优化模型。解释引导的蒸馏学习使用了KL散度损失函数来衡量学生模型和教师模型解释信息之间的差异。数据集包含220种织物,每种织物包含RGB图像、视觉触觉和压力数据,并标注了织物属性(例如,柔软度、透气性等)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的Fabric-Llama-90B模型在织物属性排序和选择可靠性方面始终优于预训练的视觉语言基线模型。具体而言,在属性排序任务中,Fabric-Llama-90B的准确率比基线模型提高了约10%。在选择可靠性方面,Fabric-Llama-90B也取得了显著的提升。

🎯 应用场景

该研究成果可应用于机器人纺织制造、服装生产和智能零售等领域。例如,在服装生产中,机器人可以根据设计要求自动选择合适的面料;在智能零售中,机器人可以帮助顾客快速找到所需的面料。该研究还有助于提升纺织行业的自动化水平,降低生产成本,提高产品质量。

📄 摘要(原文)

Choosing appropriate fabrics is critical for meeting functional and quality demands in robotic textile manufacturing, apparel production, and smart retail. We propose MLLM-Fabric, a robotic framework leveraging multimodal large language models (MLLMs) for fabric sorting and selection. Built on a multimodal robotic platform, the system is trained through supervised fine-tuning and explanation-guided distillation to rank fabric properties. We also release a dataset of 220 diverse fabrics, each with RGB images and synchronized visuotactile and pressure data. Experiments show that our Fabric-Llama-90B consistently outperforms pretrained vision-language baselines in both attribute ranking and selection reliability. Code and dataset are publicly available at https://github.com/limanwang/MLLM-Fabric.