DART: A Vision-Language Foundation Model for Comprehensive Rope Condition Monitoring
作者: Anju Rani, Daniel Ortiz-Arroyo, Petar Durdevic
分类: cs.CV, cs.AI
发布日期: 2026-05-06
备注: 18 pages, 8 figures, 9 tables
💡 一句话要点
DART:用于全面绳索状态监测的视觉-语言基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 状态监测 绳索损伤检测 Transformer 跨模态融合
📋 核心要点
- 现有绳索状态监测方法依赖人工检查或简单分类,无法提供细粒度的损伤评估和维护建议。
- DART通过视觉-语言融合,利用Transformer架构和创新训练策略,实现全面的绳索损伤评估和预测。
- 实验表明,DART在损伤分类、严重程度回归和少样本识别方面均优于现有方法,无需特定任务微调。
📝 摘要(中文)
针对海上、海事和工业环境中合成纤维绳索(SFRs)的状态监测,本研究提出了一种超越传统分类器的解决方案。检测人员需要从单张检测图像中获得连续的严重程度估计、维护建议、异常标志、劣化时间线和自动报告。为此,我们提出了DART(Damage Assessment via Rope Transformer),一种视觉-语言基础模型,通过统一的多任务架构解决完整的绳索检测工作流程。DART通过一个严重程度条件跨模态融合(SC-CMF)模块,将视觉Transformer (ViT-H/14)与Llama-3.2-3B-Instruct耦合,从而将联合嵌入预测架构(JEPA)扩展到跨模态领域。三个架构创新驱动了模型的通用性:(1) HD-MASK,一种显著性引导的掩码策略,专注于损伤密集区域的自监督重建;(2) 每个类别的可学习严重程度门,自适应地加权语言对损伤类别的 grounding;(3) 对比损伤解耦(CDD)损失,塑造嵌入空间,同时编码损伤类型、严重程度排序和跨模态语义。DART仅在4,270张图像上训练一次,涵盖14个细粒度绳索损伤类别,冻结的DART骨干网络支持下游任务,无需任何特定于任务的微调:损伤分类(93.22%准确率,91.04%宏F1,比仅视觉基线高+38.5 pp),连续严重程度回归(Spearman rho = 0.94,within-1-ordinal准确率99.6%),少样本识别(20个样本时89.2%宏F1)。这些结果表明,DART作为一个通用的CM骨干网络,超越了分类,从单一共享表示中提供可操作的检测智能。
🔬 方法详解
问题定义:现有绳索状态监测方法主要依赖人工目视检查,效率低且主观性强。基于图像的自动检测方法通常仅限于损伤分类,无法提供损伤的严重程度、发展趋势以及相应的维护建议。因此,需要一种能够从单张图像中提取全面信息的智能检测系统。
核心思路:DART的核心思路是将视觉信息和语言信息融合,构建一个能够理解图像内容并生成自然语言描述的统一模型。通过视觉Transformer提取图像特征,并利用语言模型生成损伤评估报告。这种跨模态融合使得模型能够学习到损伤类型、严重程度和语义信息之间的关联。
技术框架:DART基于Joint-Embedding Predictive Architecture (JEPA),采用Vision Transformer (ViT-H/14)作为视觉编码器,Llama-3.2-3B-Instruct作为语言解码器。视觉编码器提取图像特征,然后通过Severity-Conditioned Cross-Modal Fusion (SC-CMF)模块将视觉特征与语言特征融合。SC-CMF模块根据损伤的严重程度自适应地调整视觉和语言信息的权重。最后,语言解码器生成损伤评估报告。
关键创新:DART的关键创新在于三个方面:(1) HD-MASK,一种显著性引导的掩码策略,专注于损伤密集区域的自监督重建,提高模型对细微损伤的感知能力;(2) per-class learnable severity gates,自适应地加权语言对损伤类别的 grounding,使得模型能够根据损伤类型调整语言信息的权重;(3) Contrastive Damage Disentanglement (CDD) loss,塑造嵌入空间,同时编码损伤类型、严重程度排序和跨模态语义,提高模型的泛化能力。
关键设计:HD-MASK利用显著性检测算法确定图像中的损伤区域,然后对这些区域进行掩码,迫使模型学习从上下文信息中重建损伤区域。Severity gates是可学习的参数,用于控制语言信息对不同损伤类别的贡献。CDD loss包含三个部分:损伤类型分类损失、严重程度排序损失和跨模态对比损失。这些损失函数共同作用,使得模型能够学习到损伤类型、严重程度和语义信息之间的关联。
🖼️ 关键图片
📊 实验亮点
DART在绳索损伤分类任务上达到了93.22%的准确率和91.04%的宏F1值,相比于仅使用视觉信息的基线方法,性能提升了38.5个百分点。在连续严重程度回归任务中,DART的Spearman相关系数达到了0.94,within-1-ordinal准确率达到了99.6%。在少样本学习场景下,仅使用20个样本,DART的宏F1值达到了89.2%。
🎯 应用场景
DART可应用于海上石油平台、船舶、桥梁等场景中的合成纤维绳索状态监测。通过自动化的损伤评估和预测,可以降低人工检查成本,提高检测效率,并为维护决策提供依据,从而保障设备安全和延长使用寿命。未来,DART有望扩展到其他类型的结构健康监测领域。
📄 摘要(原文)
The condition monitoring (CM) of synthetic fibre ropes (SFRs) used in offshore, maritime, and industrial settings demands more than a classifier: inspectors need continuous severity estimates, maintenance recommendations, anomaly flags, deterioration timelines, and automated reports, all from a single inspection image. We present DART (Damage Assessment via Rope Transformer), a vision-language foundation model that addresses the full rope inspection workflow through a unified multi-task architecture. DART extends the Joint-Embedding Predictive Architecture (JEPA) to the cross-modal domain by coupling a Vision Transformer (ViT-H/14) with Llama-3.2-3B-Instruct via a Severity-Conditioned Cross-Modal Fusion (SC-CMF) module. Three architectural innovations drive the model's versatility: (1) HD-MASK, a saliency-guided masking strategy that focuses self-supervised reconstruction on damage-dense patches; (2) per-class learnable severity gates that adaptively weight language grounding by damage category; and (3) a Contrastive Damage Disentanglement (CDD) loss that shapes the embedding space to simultaneously encode damage type, severity ordering, and cross-modal semantics. Trained once on 4,270 images spanning 14 fine-grained rope damage classes, the frozen DART backbone supports downstream tasks without any task-specific fine-tuning: damage classification (93.22 % accuracy, 91.04 % macro-F1, +38.5 pp over a vision-only baseline), continuous severity regression (Spearman rho = 0.94, within-1-ordinal accuracy 99.6 %), few-shot recognition (89.2 % macro-F1 at 20 shots). These results demonstrate that DART functions as a general-purpose CM backbone that goes well beyond classification, providing actionable inspection intelligence from a single shared representation.