《Intelligent Systems with Applications》:A CAD drawing primitive completion method based on the SDS-MAE model
编辑推荐:
近年来,计算机辅助设计(Computer-Aided Design, CAD)图纸的完整性在工程设计、施工和制造中日益重要。然而,由于扫描、格式转换及多次迭代修订等问题,图纸常出现图元缺失或失真,严重影响了下游应用。为解决此问题,本研究提出一种基于自蒸馏Swi
近年来,计算机辅助设计(Computer-Aided Design, CAD)图纸的完整性在工程设计、施工和制造中日益重要。然而,由于扫描、格式转换及多次迭代修订等问题,图纸常出现图元缺失或失真,严重影响了下游应用。为解决此问题,本研究提出一种基于自蒸馏Swin掩码自编码器(Self-Distilled Swin-Masked Autoencoder, SDS-MAE)模型的CAD图纸修复方法。该方法将Swin Transformer与掩码自编码(Masked Autoencoder, MAE)相结合,并引入具有共享编码器和双解码器的自蒸馏结构:学生解码器专注于像素级重建,教师解码器提供高层语义监督,使网络能够同时捕获局部结构和长距离依赖。此外,设计了一种基于窗口的掩码策略以替代传统的随机掩码,有效抑制了捷径学习并增强了语义一致性。在FloorPlanCAD数据集上的实验结果表明,SDS-MAE模型在Dice相似系数(Dice Similarity Coefficient, DSC)、平均像素准确率(Mean Pixel Accuracy, MPA)和平均交并比(Mean Intersection over Union, MIoU)方面均显著优于基线方法。消融研究进一步验证了自蒸馏机制和基于窗口的掩码策略的有效性。这些结果表明,SDS-MAE为CAD图纸修复提供了一种鲁棒且精确的解决方案,并为下游应用提供了强大的可迁移性。
在现代工程项目中,计算机辅助设计(Computer-Aided Design, CAD)图纸构成了设计、施工和管理的基础,其完整性与准确性对工程成功至关重要。然而,在实际场景中,确保CAD图纸的完整性仍面临巨大挑战。在创建、扫描、传输或版本更新过程中,图纸可能因多种因素丢失或失真,例如扫描设备的分辨率和角度影响图像质量,导致细节丢失或模糊;设计阶段的人为错误或工具限制导致元素缺失;以及多版本修订引发的版本间不一致。这些问题导致CAD图纸不完整,进而可能在下施工阶段引发结构布局错误或管道连接不当,影响项目质量与效率。此外,不完整的CAD图纸严重阻碍了建筑信息模型(Building Information Modeling, BIM)模型的生成,微小缺陷可能引发级联错误,导致模型与设计意图大幅偏离。因此,如何有效修复缺失组件并确保图纸完整性成为关键研究问题。现有修复方法主要分为传统图像修复技术和基于深度学习的方法。传统方法如插值、边缘扩展和滤波重建,在处理大面积缺失或复杂结构时表现不佳,且往往忽视全局结构信息和图元间的依赖关系。基于深度学习的方法,如卷积神经网络(Convolutional Neural Networks, CNNs)、生成对抗网络(Generative Adversarial Networks, GANs)和自编码器(Autoencoders, AEs),虽在细节恢复和全局一致性上有所突破,但仍面临标注数据稀缺、难以同时维持几何一致性和符号准确性等挑战,特别是在处理图元间的长距离依赖方面存在不足。鉴于此,研究人员开展了一项旨在结合传统技术与深度学习优势,开发更高效、准确的CAD图纸修复方法的研究。研究人员提出了一种基于自蒸馏Swin掩码自编码器(Self-Distilled Swin-Masked Autoencoder, SDS-MAE)模型的恢复方法。该研究利用公开可用的FloorPlanCAD数据集,该数据集包含住宅、办公和公共建筑等多种类型的建筑平面图,具有复杂的线结构、弧线、符号和空间布局。研究通过模拟边缘元素丢失、内部关键点丢失、大面积丢失和跨区域丢失等常见损坏情况,构建了完整的实验数据。在技术方法上,研究人员采用了Swin Transformer作为编码器骨干网络,利用其基于窗口的自注意力机制(Window-based Self-Attention)和移位窗口策略,以平衡计算成本并有效捕获局部与全局特征。同时,引入自蒸馏机制,构建具有共享编码器和双解码器(教师/学生)的架构,其中学生解码器负责像素级重建,教师解码器提供高层语义指导。此外,设计了一种基于窗口的掩码策略,将图像划分为非重叠窗口,增加上游任务难度,抑制捷径学习。通过平均平方误差(Mean Squared Error, MSE)、余弦相似度和梯度惩罚(Gradient Penalty, GP)三种损失函数联合优化训练过程,确保像素级重建的准确性及全局结构与语义的一致性。
在研究结果方面,研究人员通过一系列实验验证了SDS-MAE模型的有效性。首先,在掩码方法实验中,对比了传统随机掩码与提出的基于窗口的掩码策略。结果显示,虽然随机掩码在预训练阶段表现出更低的损失值,但这主要源于任务难度较低导致的捷径学习。基于窗口的掩码策略在下游分割任务中显著提升了性能,证明了其在增强无监督学习效果方面的优越性。其次,研究人员分析了不同掩码比例对下游任务性能的影响,发现掩码比例约为0.7时,SDS-MAE模型能够学习到最具意义的高层语义特征,从而实现最佳的迁移性能。接着,通过消融实验评估了各个模型组件的贡献。结果表明,引入Swin Transformer模块显著提升了模型在高分辨率图像上的表现,改善了细节恢复和全局结构一致性;加入自蒸馏机制后,模型能够更有效地捕获长距离依赖和全局结构,进一步提高了修复精度。最终,完整的SDS-MAE模型在Dice相似系数(DSC)、平均像素准确率(MPA)和平均交并比(MIoU)等指标上均显著优于基线模型MAE及其他变体,且在豪斯多夫距离(Hausdorff Distance, HD)和精确率-召回率曲线下面积(Area Under the Precision-Recall Curve, AUPRC)方面表现更佳。最后,研究人员对教师和学生解码器进行了评估,发现尽管训练初期学生模型表现更优,但随着训练进行,两者性能趋于一致,表明教师分支有效学习了高层语义特征表示,最终选择学生模型作为下游应用的部署模型。
在讨论部分,研究人员指出SDS-MAE模型通过整合Swin Transformer与掩码自编码,并引入双解码器自蒸馏框架,有效捕获了细粒度细节和长距离依赖。基于窗口的掩码策略进一步抑制了捷径学习,增强了语义一致性。尽管在高度复杂图纸的处理和大尺度推理效率方面仍存在挑战,但该研究为CAD修复提供了新的见解和解决方案。研究结论部分总结称,基于SDS-MAE模型的CAD图纸修复方法通过集成Swin Transformer与掩码自编码,并引入双解码器自蒸馏框架,有效捕获了细粒度细节和长距离依赖。基于窗口的掩码策略 employed 以抑制捷径学习并增强语义一致性。在FloorPlanCAD数据集上的实验结果表明,SDS-MAE模型在多项指标上一致优于基线方法,消融研究进一步验证了自蒸馏机制和掩码设计的贡献。未来工作将专注于更具表达力的架构、扩展数据集以及增强和智能注释等辅助技术,以进一步推动工程和多媒体应用中的CAD修复技术发展。该研究发表于《Intelligent Systems with Applications》,为CAD图纸的自动修复与完整性维护提供了重要的理论依据与技术支撑。