利用视觉语言模型与无人机影像实现自动化的路面裂缝检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Automated pavement crack inspection using vision-language models and unmanned aerial vehicle imagery

【字体：大中小】 时间：2026年06月19日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　马哈茂德·阿卜杜拉|莫斯贝赫·R·卡卢普|穆罕默德·埃尔-迪亚斯蒂|霍萨姆·F·哈桑|哈立德·阿尔-沙姆西|钟万华埃及曼苏拉大学公共工程系摘要传统道路上表面裂缝的检测与分类工作耗时费力且成本高昂。近年来，借助无人机以及诸如You Only Look Once和Real-Time Detection Transformer之类的物体检测模型，自动化检测技术取得了显著进步，提升了裂缝定位的效率与可扩展性。然而，这些方法在为有效的路面状况评估提供描述性及可操作性信息方面仍存在局限。尽管视觉语言模型在生成具备上下文感知的语义描述方面表现优异，但在处理如路面损伤分析这类特定领域任务时，其性能往往会有所下降。为弥补这些缺陷，本文提出了CrackVLM这一多阶段人工智能框架，它将物体检测与视觉语言推理相结合，从而更精准地检测并解读裂缝。该框架首先运用在Road Damage Detection（RDD2022）数据集的无人机影像上训练过的YOLO和RT-DETR模型，对未经处理的无人机影像进行初步裂缝检测。随后通过基于对比语言-图像预训练的过滤机制对初始检测结果进行优化，剔除重复检测结果，仅保留那些置信度较高、语义一致的裂缝候选项。最后，借助大规模视觉语言模型，通过少样本情境内学习及结构化查询功能，生成关于裂缝的详细自然语言描述，并根据裂缝类型、严重程度及其他空间属性提出初步的维护建议。该框架在多种真实的无人机影像场景中进行了测试，包括单张图片、正射影像以及拼接影像，结果显示其在裂缝检测、分类及解读任务中均表现出出色的性能。通过整合基于人工智能的感知与推理能力，这一方法构建了一种统一的、非破坏性的检测范式，有效衔接了自动化缺陷检测与实际基础设施维护规划之间的差距。该框架适用于离线或近实时分析流程，而非实时车载部署模式，在后者中，无人机采集的数据会在采集后进行处理，以生成可用于决策支持的结构化信息。引言道路网络是现代交通基础设施的核心，对于保障国家经济活力与社会福祉至关重要，尤其是在地理面积广阔的国家。保持这些网络的良好状态对于确保道路使用者的安全、降低运输成本以及促进商业与人员流动的顺畅进行具有重要意义（Kheradmandi和Mehranfar，2022；Pierce和Stolte，2022）。然而，道路系统的庞大规模与复杂性给有效的维护与检测工作带来了巨大挑战。无论是由于环境因素、材料老化还是持续的高流量交通，路面损坏都可能带来严重的经济和社会损失，甚至威胁公共安全（Kaveh和Alhajj，2024；Abd El-Hakim等人，2025；El-Din Hemdan和Al-Atroush，2025）。因此，基于可靠且全面的状况评估，制定主动、精准且可扩展的维护策略，对于提升关键交通设施的耐久性与使用寿命至关重要（Coenen和Golroo，2017；Ragnoli等人，2018；Cao等人，2020）。历史上，路面状况评估依赖于人工检查，即由受过专业培训的人员通过目视方式识别并记录各种类型的道路损坏情况（Qureshi等人，2022）。虽然熟练的检查员能够发现细微的缺陷，但这种方法存在主观性强、劳动强度大以及所需时间长的弊端（Ragnoli等人，2018；Cao等人，2020）。不同检查员之间的评估结果差异较大，容易导致数据不一致，进而给维护工作的优先级划分及资源分配带来困难（Coenen和Golroo，2017）。为应对这些限制，自动化的路面状况监测逐渐开始采用无人机和车载摄像机等成像设备（Manjusha和Sunitha，2023；Qiu和Lau，2023；Ruseruka等人，2023）。虽然车载摄像机能够高效地在大范围道路网络上收集数据，但它们往往受到固定视角、交通状况以及某些区域难以进入的限制。相比之下，无人机作为一种强大且灵活的路面监测工具应运而生。无人机能够提供一致的俯视视角，有助于更全面且几何结构更准确的裂缝观测（Chen等人，2024）。这种拍摄视角在检测细微且分布广泛的缺陷方面具有明显优势，因为它能减少透视变形，同时降低地面检测中常见的遮挡问题。此外，无人机还能在较大或难以到达的区域快速获取高分辨率数据，从而提高作业效率与安全性（Ali等人，2021）。不过，基于无人机的数据收集也存在一些实际限制，包括由于电池限制导致的飞行时间较短、对风速和光照条件较为敏感，以及可能受到周围物体（如车辆、植被或基础设施）的遮挡（Liang等人，2023）。另外，无人机的使用还受到各种法规限制，包括飞行许可、隐私保护问题以及某些地区的安全要求。尽管存在这些挑战，基于无人机的检测技术在众多土木工程应用领域展现出了巨大的潜力（Kang和Cha，2018；Wang等人，2024b）。为处理无人机收集的大量视觉数据，计算机视觉技术已成为标准手段。早期的方法依赖于传统的图像处理技术，但随着深度学习的出现，尤其是卷积神经网络的应用，相关技术取得了重大进展，广泛应用于裂缝分类等领域（Zhang等人，2016；Li等人，2018；Yang等人，2020；Dais等人，2021）。目前的检测方法主要以分割模型和物体检测模型为主，这类模型能够通过像素级掩码或边界框的形式，高精度地自动识别并定位路面缺陷（Kang和Cha，2022；Elamin和EL-Rabbany，2023；Chen等人，2024；Wang，2025）。基于卷积的物体检测模型，如You Only Look Once系列模型（Redmon等人，2016），以及最近的基于Transformer的模型，如Real-Time Detection Transformer（RT-DETR）（Carion等人，2020），在缺陷检测与分类任务中展现了出色的性能（Ma等人，2022；Youwai等人，2024；Yu等人，2024；Manjusha和Sunitha，2025；Zuo等人，2025）。这些模型通常在大型公共数据集上进行训练与评估，比如Road Damage Detection 2022（RDD2022）和Arya等人（2024）的研究数据，以及Pavement Distress Detection 2022（PDD2022）（Yan和Zhang，2023）的数据，以此确保其具备稳定的性能。然而，尽管这些模型在裂缝定位方面表现良好，但它们在资产管理方面的实际应用价值仍然有限。目前最先进的物体检测模型虽然能够确定缺陷的位置，但却无法提供有效维护规划所需的描述性或背景信息（Kang等人，2020；Youwai等人，2024；Zuo等人，2025）。简单的检测结果往往缺乏诸如裂缝类型（如纵向裂缝、横向裂缝、鳄鱼形裂缝、坑洞等）、严重程度、宽度或可能成因等关键信息。这种缺乏定性与定量信息的情况造成了很大的不足，因为维护工程师在诊断问题并确定合适的修复方案时，需要的不仅仅是裂缝的位置信息。本质上，这些模型只能回答“缺陷在哪里”的问题，却无法以有意义或可操作的方式说明“缺陷是什么”（Min等人，2025）。为填补从简单检测到有意义解读之间的空白，人们开始运用视觉语言模型来实现语义解读与可操作性分析（Bordes等人，2024；Zhang等人，2024a）。视觉语言模型结合了计算机视觉的感知能力与大型语言模型的生成能力，从而能够同时处理视觉与文本信息（Bai等人，2023；Touvron等人，2023）。这种融合使得视觉语言模型能够生成详细且易于人类理解的图像内容描述，将工作重点从单纯的缺陷定位转向对其属性的全面分析（Liang等人，2025），从而为更科学的维护决策提供依据。近期研究显示，视觉语言模型在零样本和少样本学习场景中表现优异，减少了对大规模标注数据集的依赖。不过，仅依靠视觉语言模型可能无法达到专业物体检测器的检测精度（Zhang和Liu，2025）。除了基于检测的方法之外，最近还有研究提出了针对特定领域的裂缝分类与分割网络，这类网络在像素级定位和裂缝量化方面取得了高精度成果。虽然这些方法能够提供详细的几何特征描述，但它们主要侧重于视觉上的勾勒，往往缺乏生成结构化语义描述或支持更高层次解读的能力。相反，尽管基于视觉语言模型和对比学习的方法在生成描述性输出方面表现突出，但它们在精确的空间定位以及基于特定领域的逻辑推理方面仍存在局限，尤其是在路面裂缝分析这类应用中。因此，低级别的视觉分析（检测与分割）与高级别的语义解读之间依然存在差距，这就凸显出需要能够有效整合这两种分析视角的方法。为更全面地了解该领域的最新进展，附录A中总结了其他相关研究。将物体检测技术融入视觉语言模型，有助于其识别相关对象，但传统的非最大值抑制算法可能无法完全消除重复的裂缝区域（Vidyabharathi等人，2023）。因此，需要一种专门的过滤机制，以确保只有唯一且经过语义标记的裂缝实例才会被纳入分析范围。在这方面，对比语言-图像预训练技术为解决这一问题提供了有效方案，因为它能够衡量裂缝区域之间的特征相似度，同时还具备零样本语义标记功能，从而可以有效过滤掉重复内容，确保只分析唯一且经过语义标记的裂缝实例。本文认为，单纯的路面裂缝检测方法已无法满足现代数据驱动型基础设施管理的需求。为填补从局部检测到有意义的结构评估之间的空白，我们提出了CrackVLM这一创新框架，它将高精度的物体检测技术与视觉语言模型的生成与解读能力有机结合。为克服传统后期处理过程中出现的重复检测和无关检测问题，我们引入了基于CLIP的语义过滤模块。该模块利用零样本相似性分析，只为视觉语言模型选择唯一且语义相关的裂缝实例进行分析。这种由检测、过滤和描述构成的三部分架构，能够实现精准且聚焦的推理过程，将原始的视觉数据转化为详尽的自然语言形式的损害评估结果，为维护工作的优先级安排提供直接依据。本研究的主要贡献有三点：第一，提出了一种将物体检测技术与视觉语言模型相结合的优化框架，从而实现了从简单的路面裂缝检测向全面描述性评估及相应维护建议的转变；第二，引入了基于CLIP的过滤机制，提升了输入到视觉语言模型中的数据质量，进而提高了生成的损害描述的相关性和准确性；第三，借助CLIP过滤器和视觉语言模型的零样本及少样本学习能力，实现了全面的视觉评估，同时减少了对大规模、完全标注过的特定领域数据集的依赖。本文的其余部分结构如下：第2节介绍了研究方法，包括所提出的框架、数据集构建方式、实验设置、实现细节以及评估指标；第3节展示了主要的实验结果，涉及路面裂缝检测、过滤以及描述功能的性能表现；第4节通过消融分析，探讨了提示词设计、裂缝检测与过滤以及检测器选择等因素的影响；第5节利用道路损坏数据集及无人机影像，展示了实际的缺陷解读案例研究；第6节讨论了该方法的计算可行性、工程可靠性、存在的局限性以及未来的研究方向；最后，第7节对全文内容进行总结，归纳关键研究发现，并提出未来研究的方向。方法论本节介绍了本研究采用的方法。首先介绍了CrackVLM框架，接着说明了用于训练和评估的数据集，阐述了应用于视觉语言模型的情境内学习策略，最后给出了用于系统评估的性能指标。实验结果本节对实验结果进行了全面分析，详细介绍了物体检测模型的性能以及视觉语言模型在描述路面裂缝方面的能力。消融分析本节评估了CrackVLM框架中各项关键设计要素的作用，包括提示词设计、少样本情境内学习、基于检测结果的输入处理、基于CLIP的过滤机制以及检测器选择。实际缺陷解读为补充定量评估结果，本节通过实际案例展示CrackVLM如何将检测到的路面缺陷转化为结构化且具有工程参考价值的描述。分析过程中同时考虑了来自RDD数据集的基准样本以及无人机影像，以此评估该框架在描述准确性、情境推理能力以及在受控环境和真实检测场景中的适用性。讨论本节从部署可行性、工程可靠性以及实际应用局限性等方面，对实验结果进行了解读。结论本研究提出了CrackVLM这一统一框架，它能够利用无人机影像实现高质量的路面裂缝解读，并给出初步的维护建议。该框架通过整合物体检测、重复检测过滤以及视觉语言推理技术，首先运用基于YOLO的检测器进行初步的裂缝识别，再通过基于CLIP的相似性过滤机制去除重复检测结果，并进一步优化裂缝分类。独特的、高可信度的裂缝修补方案随后会由最先进的视觉语言模型进行分析，该模型能够生成详细的分析结果。本研究得到了韩国基础设施技术发展机构（KAIA）的支持：[资助编号RS-2023-00243421]。

作者贡献说明：
Mahmoud Abdallah：概念设计、数据整理、形式分析、研究调查、方法论设计、软件开发、验证、可视化处理、论文初稿撰写及审阅编辑。
Mosbeh R. Kaloop：研究调查、方法论设计、验证、可视化处理、论文初稿撰写及审阅编辑。
Mohammed El-Diasty：概念设计、数据整理、研究调查、资源协调、项目监督、验证、可视化处理、论文初稿撰写及审阅编辑。
Hossam F.

利益冲突声明：
作者声明不存在任何可能影响本文研究结果的已知财务利益或个人关系。

致谢：
所有实验均在香港理工大学的高性能计算设施中完成。作者感谢苏丹卡布斯大学（SQU）的助理教授Aliya Al-Hashim博士，她提供了DJI Mavic 2 Enterprise Advanced（M2EA）无人机测绘系统，帮助作者在SQU校园内进行道路测量与绘图工作。同时，作者也衷心感谢科学、技术及创新资助局（STDF）对这项研究的支持。

联系信箱：

粤ICP备09063491号

热点排行