图像大小和滑动窗口设计对混凝土裂缝检测性能及推理效率的影响

《Journal of Building Engineering》:Effects of image size and sliding-window design on performance and inference efficiency for concrete crack detection

【字体: 时间:2026年04月09日 来源:Journal of Building Engineering 7.4

编辑推荐:

  本研究探讨图像尺寸对基于深度学习的混凝土裂缝检测的影响,通过生成五种不同尺寸的数据集并系统评估代表性目标检测模型,提出结合GPU内存感知动态批处理并行推理与多尺度滑动窗口策略的优化方法,结果表明320×320尺寸图像在数据集规模、检测准确率和训练效率间取得最佳平衡,推理时间减少超过90%,为工程应用提供理论依据和实践指导。

  
徐刚|杨亚兰|岳庆瑞|刘晓刚
北京科技大学未来城市学院城市化与城市安全研究所,北京100083,中国

摘要:

本研究通过从统一的图像源生成五个数据集,并系统地评估代表性的目标检测模型,来探究图像尺寸对基于深度学习的混凝土裂缝检测的影响。在推理阶段,提出了一种结合多尺度滑动窗口策略的、考虑GPU内存的动态批量并行推理方法,以提高在实际场景中获取的大规模裂缝图像的检测效率。结果表明,320 × 320的图像尺寸在数据集规模、检测精度和训练效率之间实现了最佳平衡。所提出的推理优化方法进一步减少了不同模型和场景下的推理时间,减少了90%以上。总体而言,本研究不仅阐明了图像尺寸和滑动窗口策略对裂缝检测性能的影响,还提出了在精度和效率之间取得平衡的实际优化方法,为自动化混凝土裂缝检测系统的工程应用提供了宝贵的见解。

引言

裂缝是土木工程中最常见的结构缺陷之一,其产生原因包括材料老化、荷载效应和热变形等复杂的机械机制。这些裂缝不仅降低了结构的承载能力和耐久性,还会引发二次损害,如钢筋腐蚀和漏水,最终威胁到建筑物和基础设施的安全服役性能[1]、[2]。因此,高效准确的裂缝检测是结构健康监测和寿命评估的关键步骤。使用不同传感范式的相关研究也报告了在土木结构中有效检测裂缝和损伤的情况[3]、[4]、[5]。然而,传统的人工检测和简单的测量工具仍然效率低下、主观性强,并且难以扩展到大型或危险环境中[6]、[7]、[8]、[9]。深度学习为自动化裂缝检测提供了有前景的解决方案,在检测[10]、[11]、分割[12]、[13]和量化[14]方面具有潜力。然而,深度学习的实际应用面临图像数据和计算资源不确定性的挑战。
收集的裂缝图像尺寸差异很大,通常需要在训练前进行调整大小或裁剪,以满足网络输入和计算要求。在部署过程中,对于超大规模图像需要使用滑动窗口推理[16]。这导致了训练输入尺寸与推理窗口之间的不一致,由于图像尺寸的不同,需要在精度和效率之间进行权衡。此外,滑动窗口配置的差异会导致批量推理开销的波动,从而降低裂缝检测的灵敏度并增加整体处理时间。尽管一些研究探索了不同的分辨率和裁剪策略,但图像尺寸和滑动窗口的设置往往基于经验而非系统分析[17]、[18]、[19]。此外,数据源不一致,缺乏跨架构的比较和因果分析[20]。很少有研究考虑内存感知的批量调度和窗口设计调整,这使得难以建立可转移的工程指南。
为了解决这些挑战,本文聚焦于混凝土裂缝检测任务,使用了一个统一且可控的图像数据源。通过标准化裁剪创建了五个具有不同图像尺寸的数据集。本文系统地探讨了图像尺寸和滑动窗口配置如何影响裂缝检测性能和推理效率,包括在训练期间检查图像尺寸设置、比较模型性能以及分析推理过程中的滑动窗口策略。为了避免依赖单一模型,选择了三种代表性的检测器进行跨架构训练和比较。在推理阶段,提出了一种结合不同尺度滑动窗口和内存感知的动态批量并行推理的优化策略。评估了各种滑动窗口尺寸对检测精度、效率和稳定性的影响,显著提高了推理效率。最后,基于这些发现,提出了一种结合图像尺寸、模型架构和滑动窗口配置的优化策略。该策略在精度和效率之间取得了平衡,为裂缝检测系统的工程应用提供了理论基础和实践指导。

章节摘录

裂缝检测算法

近年来,深度学习在目标检测和图像识别领域取得了显著进展,出现了一些代表性的方法。这些方法包括两阶段卷积神经网络(CNN)检测器(如R-CNN [21])、单阶段检测器(如YOLO系列 [22]、[23]、[24]、[25]、[26]、[27]、[28] 和 RetinaNet [29])、基于Transformer的检测器(如DETR [30])以及基于扩散的生成式检测器(如DiffusionDet [31])等。

数据集描述

为了确保本研究中使用的图像数据既可控又具有代表性,选择了徐等人[66]收集的302张混凝土裂缝图像作为原始数据集,每张图像的尺寸为5184 × 3456像素,如图1所示。该数据集来自不同复杂场景下的钢筋混凝土梁表面,真实反映了现场结构条件,同时包含了多种潜在的干扰源。

相关方法

基于统一的混凝土裂缝图像数据集,本研究系统地研究了图像尺寸和滑动窗口策略对混凝土裂缝检测任务中的检测精度和推理效率的影响。具体来说:(1)应用一致的裁剪程序生成了五个具有不同图像尺寸的数据集,从而能够结构化地分析图像尺寸变化及其对应数据集规模对检测性能的影响;(2)选择了几种代表性的

结果与讨论

在本节中,我们在五个具有不同图像尺寸的数据集上训练和评估了目标检测模型,这些数据集均来源于统一的混凝土裂缝图像源。从多个角度进行了全面分析,包括数据集图像尺寸配置、比较模型性能以及推理过程中的滑动窗口策略,以系统地研究它们对裂缝检测精度和效率的影响。此外,还研究了滑动窗口裁剪

结论

本研究专注于混凝土裂缝检测任务,基于统一的裂缝图像数据集,系统地研究了三个方面:数据集图像尺寸配置、代表性检测模型的比较性能以及推理过程中的滑动窗口策略。通过采用不同尺寸的图像裁剪、对三种代表性模型进行系统训练和评估,以及结合GPU内存感知的动态批量优化多尺度滑动窗口,

CRediT作者贡献声明

刘晓刚:撰写 – 审稿与编辑,撰写 – 原稿,监督,方法论,资金获取,形式分析,概念化。岳庆瑞:撰写 – 原稿,监督,项目管理,方法论,资金获取,概念化。杨亚兰:可视化,软件,调查,形式分析,数据管理。徐刚:撰写 – 审稿与编辑,撰写 – 原稿,可视化,软件,方法论,调查,资金

利益冲突声明

? 作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

本工作得到了国家重点研发计划(编号:2024YFC3015200)、国家自然科学基金(资助编号:52508327)、国家自然科学基金重点计划(编号:52192663、52192662)以及CPSF博士后奖学金计划(资助编号:GZC20252155)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号