Language-in-the-Loop Culvert Inspection on the Erie Canal

📄 arXiv: 2509.21370v1 📥 PDF

作者: Yashom Dighe, Yash Turkar, Karthik Dantu

分类: cs.RO, cs.CV

发布日期: 2025-09-22

备注: First two authors contributed equally


💡 一句话要点

提出VISION系统,利用语言引导的视觉模型实现伊利运河涵洞的自主巡检。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自主巡检 视觉语言模型 机器人 基础设施 涵洞检测 视点规划 立体视觉

📋 核心要点

  1. 运河涵洞的人工检查面临诸多挑战,如年代久远、几何结构复杂、光照不足等。
  2. VISION系统利用语言引导的视觉模型,结合约束视点规划,实现涵洞的自主巡检。
  3. 实验表明,该系统能有效识别感兴趣区域,并生成高分辨率图像,与专家评估结果高度一致。

📝 摘要(中文)

本文介绍了一种端到端的、语言在环的自主系统VISION,用于伊利运河等运河涵洞的自主巡检。该系统将网络规模的视觉-语言模型(VLM)与约束视点规划相结合。通过向VLM输入简短提示,获得带有理由和置信度的开放词汇感兴趣区域(ROI)提议,然后融合立体深度信息以恢复尺度。规划器感知涵洞约束,指挥四足机器人进行重新定位,以捕获目标特写图像。VISION在机器人上闭环执行“看、决定、移动、重新成像”流程,无需特定领域微调即可生成高分辨率图像,用于详细报告。纽约运河公司人员的外部评估表明,初始ROI提议与领域专家达成61.4%的一致,重新成像后的最终评估达到80%,表明VISION将初步假设转化为基于实际情况的、与专家对齐的发现。

🔬 方法详解

问题定义:伊利运河等运河上的涵洞需要频繁检查以确保安全运行。人工检查由于涵洞的特殊环境(如光照差、空间狭小等)而极具挑战性。现有方法通常依赖人工操作或领域特定的图像处理技术,效率低且泛化性差。

核心思路:利用大型视觉-语言模型(VLM)的强大语义理解能力,通过自然语言提示引导模型识别涵洞中的潜在问题区域(ROI)。结合立体视觉获取深度信息,实现对ROI的精确定位和尺度估计。然后,通过规划算法控制机器人移动,从最佳视角捕获ROI的高分辨率图像,最终实现自主巡检。

技术框架:VISION系统包含以下主要模块:1) VLM模块:接收用户输入的自然语言提示,生成ROI提议及其置信度。2) 立体视觉模块:利用双目相机获取深度信息,恢复ROI的尺度。3) 规划模块:根据涵洞的几何约束和ROI的位置,规划机器人的运动轨迹,使其能够从最佳视角拍摄ROI。4) 运动控制模块:控制四足机器人执行规划的运动。5) 图像采集模块:采集ROI的高分辨率图像。整个系统形成一个“看、决定、移动、重新成像”的闭环反馈系统。

关键创新:该方法的核心创新在于将大型视觉-语言模型引入涵洞巡检任务,利用语言提示引导视觉模型,实现了开放词汇的ROI检测,无需针对特定缺陷类型进行训练。此外,该系统还实现了端到端的自主巡检,能够在机器人上闭环执行任务,无需人工干预。

关键设计:VLM模块使用预训练的视觉-语言模型,通过简单的文本提示(例如“裂缝”、“腐蚀”)来引导模型识别ROI。立体视觉模块使用标准的立体匹配算法获取深度信息。规划模块采用基于采样的运动规划算法,考虑了涵洞的几何约束和机器人的运动能力。系统没有使用特定的损失函数或网络结构进行微调,而是依赖于预训练模型的泛化能力。

📊 实验亮点

在伊利运河涵洞的实际部署中,VISION系统生成的初始ROI提议与领域专家的判断有61.4%的一致性。经过机器人重新定位和成像后,最终评估结果与专家的一致性提高到80%。这表明VISION系统能够有效地将初步假设转化为基于实际情况的、与专家对齐的发现,验证了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于各类基础设施的巡检维护,例如桥梁、隧道、水坝等。通过搭载不同类型的传感器,该系统还可以扩展到其他环境,如矿井、核电站等。该技术有望降低人工巡检的成本和风险,提高巡检效率和质量,为基础设施的安全运行提供保障。

📄 摘要(原文)

Culverts on canals such as the Erie Canal, built originally in 1825, require frequent inspections to ensure safe operation. Human inspection of culverts is challenging due to age, geometry, poor illumination, weather, and lack of easy access. We introduce VISION, an end-to-end, language-in-the-loop autonomy system that couples a web-scale vision-language model (VLM) with constrained viewpoint planning for autonomous inspection of culverts. Brief prompts to the VLM solicit open-vocabulary ROI proposals with rationales and confidences, stereo depth is fused to recover scale, and a planner -- aware of culvert constraints -- commands repositioning moves to capture targeted close-ups. Deployed on a quadruped in a culvert under the Erie Canal, VISION closes the see, decide, move, re-image loop on-board and produces high-resolution images for detailed reporting without domain-specific fine-tuning. In an external evaluation by New York Canal Corporation personnel, initial ROI proposals achieved 61.4\% agreement with subject-matter experts, and final post-re-imaging assessments reached 80\%, indicating that VISION converts tentative hypotheses into grounded, expert-aligned findings.