综述：面向微观结构与表面表征的AI驱动图像处理技术：方法、材料与应用的系统性综述

《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》：AI-Driven Image Processing for Microstructure and Surface Characterization: A Systematic Review of Methods, Materials, and Applications

【字体：大中小】 时间：2026年06月01日 来源：ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING 12.1

编辑推荐：

　　人工智能（AI）已成为材料科学领域的关键赋能技术，推动了对微观结构与表面特性的自动化、高精度分析。本综述系统性地概述了用于分割、分类、超分辨率重建和表面缺陷检测等任务的深度学习（DL）与传统图像处理方法，并涵盖了光学显微镜、扫描电子显微镜（SEM）、原子力显微

人工智能（AI）已成为材料科学领域的关键赋能技术，推动了对微观结构与表面特性的自动化、高精度分析。本综述系统性地概述了用于分割、分类、超分辨率重建和表面缺陷检测等任务的深度学习（DL）与传统图像处理方法，并涵盖了光学显微镜、扫描电子显微镜（SEM）、原子力显微镜（AFM）和电子背散射衍射（EBSD）等多种成像技术。综述研究显示，卷积神经网络（CNN）、U-Net、Vision Transformers及YOLO等现代深度学习架构表现出高性能，在分割与缺陷检测任务中通常报告超过90%的准确率。此外，生成模型通过实现数据增强和合成数据生成，特别是在数据有限的场景中，提升了模型的鲁棒性。尽管取得了这些进展，但重要的挑战依然存在，包括有限的数据可用性、跨成像条件的域偏移以及深度模型的可解释性有限。因此，本综述探讨了可解释人工智能（XAI）方法，并强调仅靠视觉解释是不够的，必须辅以物理微观结构知识。与此同时，基于灰度共生矩阵（GLCM）、局部二值模式（LBP）和Gabor滤波器等传统特征提取方法在可解释性和计算效率方面持续提供优势，尤其是在数据稀缺的场景中。总体而言，本综述强调了传统方法与深度学习方法的互补性应用，并概述了未来方向，包括标准化数据集、域适应和物理信息建模，以提高AI驱动的材料表征的可靠性与泛化能力。

本研究遵循系统性综述和荟萃分析优先报告条目（PRISMA 2020）指南进行。文献检索在Scopus数据库中进行，使用了三种关键词组合。经过筛选，最终有93项研究被纳入综合分析。

材料的机械、热学和化学性能与其微观结构密切相关。微观结构包含相分布、晶粒尺寸、取向、孔隙率和界面特性等元素，这些是决定材料性能的基本因素。详细表征微观结构是理解“微观结构-性能关系”这一材料科学基本目标的关键步骤。传统的微观结构分析方法通常依赖于显微镜图像的定性评估，但仅凭目视检查不足以准确定义复杂的相形态和多尺度结构特征，这增加了对定量和自动化分析方法的需求。

在材料工程应用中，表面形貌与微观结构同等重要。表面粗糙度、波纹度、纹理取向和表面能等参数直接影响与表面相关的行为，包括磨损、摩擦、腐蚀和涂层附着力。此外，光学显微镜、SEM、AFM和EBSD等高分辨率成像技术的进步使得获取大规模、复杂的数据集成为可能，进一步增加了对先进分析方法的需求。理解现代工程材料的“工艺-微观结构-性能”关系不仅限于实验表征，还包括热机械、扩散和相变过程对微观结构的影响。在此背景下，微观结构表征已成为一个融合实验观测与建模方法的跨学科领域。

微观结构表征长期严重依赖人力和专家解读。然而，如今仅凭传统图像处理技术不足以理解微观结构的复杂形态。因此，人工智能和计算机视觉方法已成为实现大规模显微镜数据自动化、快速和可重复分析的有效工具。特别是，为AI支持的微观结构分析建立更广泛的开放访问数据库、开发可解释的DL模型以及整合多尺度表征方法被视为该领域进步的基本要求。

图像处理和基于DL的模型能够以远高于人类观察者的准确性和速度识别微观结构模式，特别是在钢铁微观结构等材料体系中，并能检测复杂的相分布。例如，使用DL方法对钢铁微观结构进行分类，已在自动确定相分离和晶粒形态方面取得了突破性进展。这些方法不仅缩短了分析时间，还显著减少了人为误差。DL模型最重要的贡献之一是其联合解读相同材料在不同参数化下的差异的能力，特别是在热处理、冷却速率或变形过程等不同生产条件下。此外，将预训练的基于卷积神经网络的编码器应用于显微镜数据，即使在数据有限的情况下也能实现高精度分割。

基于AI的图像处理技术的另一个优势是其在不同分辨率下重建微观结构数据的能力。基于DL的超分辨率模型通过将低分辨率显微镜图像转换为高分辨率图像，使得更精确、更详细地检查微观结构成为可能。这种方法在纳米尺度检测表面或相差异方面具有高灵敏度。此外，“小样本学习”方法在数据标注复杂或专家解读有限的情况下提供了显著优势。使用这些方法，只需少量标注图像即可实现电子显微镜数据的快速灵活分割。同样，基于DL的3D分割技术能够对多晶材料的晶界和相分布进行体积分分析。

DL驱动的微观结构分析面临的最大挑战之一是缺乏高质量和准确标注的数据。显微镜图像的经典解读既耗时又需要专家知识，这使得为模型训练获取足够的数据变得困难，并限制了模型的泛化能力。近年来，数据增强和合成数据生成策略已被开发出来以缓解这一问题。然而，也有报道称这些技术可能会增加过拟合的风险，并且可能无法完全捕捉模型实际的微观结构变化。在数据有限的学习环境中，会使用优化策略使模型有效泛化；这些方法被称为“训练策略”。另一方面，理解高分辨率显微镜数据中深度网络的决策机制带来了单独的挑战。理解深度网络学习并基于哪些特征或纹理模式进行决策，对于提高模型的可靠性和可解释性至关重要。

近期，视觉基础模型作为自然图像分析的一种可行选择已经出现，这可以被视为自然语言处理发展的直接成果。其中最突出的方法是“分割一切”（SAM）。这些基础模型能够泛化到训练期间未见过的任务和数据分布之外，这种能力是通过提示工程实现的。随后，在文献中介绍了用于显微镜的“分割一切”（μSAM）作为多维显微镜数据分割和跟踪的工具。它基于SAM，通过针对光学和电子显微镜微调通用模型进行了扩展，旨在大大提高不同模态的分割质量。Tung和Harrison提出了一种将SAM与小样本学习框架相结合的机器学习工作流，实现了自动化分割并最小化了用户偏差。该方法在3D FIB-SEM层析数据集上进行基准测试，达到了80.62%的交并比（IoU）得分。值得注意的是，SAM是在非常大的自然图像数据集上训练的，因此它倾向于使用从自然图像中学到的规则来解释微观结构。它可能会错过晶粒或相等重要特征，或者可能错误地分割噪声或背景。Whitman和Latypov展示了在显微镜图像上进行CLIP、DINOv2和SAM实验的结果，表明这些模型在学习微观结构-性能关系方面优于传统的、特定任务的模型。视觉基础模型代表了多维显微镜数据分割的有前景的工具，但其有效性应通过解决材料科学领域特定场景的研究进一步验证。

另一个在材料科学界日益重要的概念是可解释人工智能（XAI）。例如，基于Grad-CAM的方法已被用于突出钢铁微观结构中的相界和相关微观结构特征，从而提供对模型决策过程的更深入理解。可解释模型的目标不仅是使AI系统做出预测，还能揭示哪些微观结构特征对预测过程贡献最大。这种方法促进了模型输出与物理基础的关联，从而提高了材料科学研究的透明度和可靠性。此外，标准化不同研究小组开发的数据集和代码对于可重复性至关重要。用于微观结构分割的预训练深度网络和共享基准数据集为模型比较提供了客观基础。然而，文献中的大多数研究仍然集中在有限的材料类型、显微技术或成像条件下。这限制了模型在不同数据类型之间的泛化能力及其在多材料系统中的有效性。

本综述的主要目标是系统性地展示AI支持的图像处理方法在微观结构和表面表征中的现状、方法多样性及其应用领域。尽管DL模型目前在从显微镜数据中提取有意义的结构信息方面取得了高成功率，但仍存在许多障碍，包括数据多样性、标注挑战和有限的可解释性。因此，本综述不仅涵盖技术进步，还涵盖这些技术的局限性和未来研究需求。在此背景下，本综述旨在提供现有方法的结构化概述，突出关键挑战，并概述未来的研究方向。

在图像获取模态方面，光学显微镜（OM）、扫描电子显微镜（SEM）、原子力显微镜（AFM）和电子背散射衍射（EBSD）等不同显微技术获取的数据对于训练和验证基于AI的图像处理方法至关重要。这些技术提供了关于材料表面形貌、晶粒结构、相分布和织构的多维信息，构成了数据驱动材料工程的基础。

在标注、标注和真值可靠性方面，基于AI的微观结构图像分析的最大挑战之一是创建可靠的“真值”数据。DL模型需要大量的标注数据才能产生高精度的结果。然而，手动标注微观结构图像通常非常有限，因为其专业要求高且耗时。这种情况直接影响模型训练的准确性，特别是在具有复杂相分布或多组分微观结构的材料中。Wang等人开发了一种基于DL的标注方法来缓解这个问题，通过专家用户审查逐步改进自动分割结果，创建了基于人机协作的“半自动标注”过程。Ma等人针对有限数据下的钢铁微观结构分割提出了几种“训练策略”，包括数据增强、动态学习率调整和损失函数平衡。

在开放访问数据集、可共享性和域偏移方面，基于AI方法的成功取决于结构良好、可访问的数据集的可用性。然而，该领域的数据共享仍然有限；大多数研究依赖于内部或基于项目的封闭数据源。几个开放访问数据集已成为开发和评估AI微观结构和显微镜图像分析方法的特别有用的基准。然而，数据共享不仅仅是访问问题；它对于数据一致性以及解决被称为“域偏移”的分布差异也至关重要。域偏移源于来自不同设备、操作员或制备条件的图像的统计分布变化，可能对模型性能产生负面影响。Ma等人表明，在显微镜图像中进行数据增强和多样化策略对于减轻这种影响是有效的。

在数据增强和合成数据生成方面，DL模型的成功取决于训练数据的多样性和数量。然而，在材料科学中，由显微镜图像组成的数据集通常规模有限，并且标注过程需要高度的专业知识，从而降低了模型的泛化能力。为了克服这个问题，数据增强和合成数据生成方法在AI辅助微观结构分析中越来越多地被使用。数据增强技术涉及通过旋转、反射、缩放、添加噪声以及调整亮度和对比度等操作来多样化现有的显微镜图像。这些操作使模型对成像条件和微观结构的变化更具弹性。Ma等人全面研究了显微镜图像中的数据增强对材料数据挖掘的影响，证明了这些技术降低了DL模型的过拟合风险。最近的研究表明，数据增强方法不仅可以间接提高模型性能，还可以提高标注质量。Wang等人报告称，他们利用数据增强策略的基于DL的标注方法提高了分割精度，使标注过程更加高效。Ma等人在2023年发表的一篇综合评述中系统地分类了DL微观结构分割中使用的数据增强和合成数据生成方法，强调了生成对抗网络（GAN）和变分自编码器（VAE）等生成模型在生成合成显微镜图像方面日益有效。更近期，基于扩散的生成模型已成为替代GAN和VAE方法进行合成微观结构生成和重建的有力选择。Lee和Yun提出了一个用于微观结构重建的去噪扩散模型框架，并证明了其适用于具有不同空间分布和形态特征的微观结构。Düreth等人开发了一种基于条件扩散的重建方法，表明扩散模型可以生成逼真的微观结构图像，同时保留基于描述符的统计相似性和多样性。与基于GAN的传统方法相比，扩散模型提供更稳定的训练，并可提供灵活的条件生成，尽管其计算成本以及针对物理微观结构描述符的验证仍是重要挑战。

总之，微观结构分析和基于AI的建模依赖于由多源、高分辨率图像数据构成的数据生态系统。这些数据对于结构表征以及AI模型的训练和验证都至关重要。然而，可靠的标注需求、有限的数据量以及人为引入的不一致性等问题限制了模型性能。半自动标注、数据增强和合成数据生成等方法可以提高数据质量和增强泛化能力。

在特征工程和经典图像表示方面，形态学、统计和纹理描述符（如GLCM、LBP、滤波器组）对于微观结构分类和质量评估至关重要。灰度共生矩阵（GLCM）方法基于图像中灰度级的空间关系的统计度量。局部二值模式（LBP）通过将灰度图像中每个像素周围的邻域结构编码为二值模式来捕获局部纹理模式。Laws提出的滤波器组方法依赖于应用不同的核滤波器（例如边缘、点、小波）来捕获特定空间频率的能量分布。Gabor滤波器是方向敏感滤波器，在空间域和频率域同时携带信息。这些滤波器方法在捕获微观结构的方向各向异性和晶粒间界面对比度方面产生有效结果。例如，Zhu等人将GLCM和LBP等经典特征提取方法与机器学习算法相结合，用于分类热成形超高强度钢的微观结构，证明了这些统计纹理特征可以作为训练AI模型的有力解释变量。

在分割、目标检测和量化算法方面，分割是确定不同相、晶粒或缺陷边界并定量分析其几何属性的基本步骤。Otsu开发了一种基于灰度直方图最小化类内方差的阈值方法。Vincent和Soille将分水岭方法应用于数字领域，通过模拟高程图上的水滴汇合来实现基于区域的边界确定。Chan和Vese开发的“无边缘活动轮廓”方法基于区域统计而非梯度来分离图像内的区域。Peregrina-Barreto等人提出了一种用于晶粒尺寸测定的自动图像处理方法。Fotos等人通过结合经典分水岭算法和DL支持的框架改进了微观结构量化。Kang等人开发了一个基于U-Net的分割模型，用于自动识别铁素体-珠光体微观结构和进行晶粒尺寸分级。

在特征提取和微观结构分类的传统机器学习方法方面，特征选择是从图像提取的高维数据集中识别最具信息量的变量以提高模型准确性和泛化能力的关键步骤。Peng等人开发了mRMR方法，结合了最大依赖性、最大相关性和最小冗余性原则。Kononenko开发的RELIEF算法及其扩展版本ReliefF根据实例之间的距离评估每个特征对类别分离的贡献。Jolliffe系统化的主成分分析（PCA）通过消除特征之间的相关性将数据转换为低维空间。Cortes和Vapnik引入的支持向量机（SVM）使用核函数优化线性或非线性决策边界。Breiman开发的随机森林算法是一种基于集成的方法，通过结合多个决策树来提高预测性能。Gola等人使用SVM模型基于形态和纹理特征客观分类低碳钢的微观结构。Müller等人应用传统机器学习技术对低碳多相钢中的贝氏体亚类进行分类。Zhu等人指出，当与SVM分类器结合使用时，GLCM等经典纹理特征比基于卷积神经网络的方法提供更具可解释性的特征空间。

综上所述，经典图像处理和特征工程方法继续为微观结构和表面表征提供可解释、可靠和数据高效的解决方案。特征选择方法和传统机器学习模型有助于优化高维图像数据，提高分类准确性。尽管这些经典方法提供了可解释性和效率，但最近的发展越来越多地将重点转向数据驱动的方法。

在深度和混合学习框架用于微观结构分析方面，本节概述了材料科学中使用的核心AI架构。核心深度视觉架构包括卷积神经网络（CNN）、Vision Transformers（ViT）和自编码器。卷积神经网络（CNN）通过卷积滤波器提取分层局部特征。编码器-解码器架构如U-Net和DeepLab将基于CNN的特征提取扩展到像素级分割。相比之下，Vision Transformers将图像分割成小块并使用自注意力机制来建模长距离依赖关系。目标检测模型如Faster R-CNN和YOLO被设计用于定位和分类离散对象或缺陷。自编码器和生成模型，包括基于GAN的框架，主要用于表示学习、重建、超分辨率、数据增强和合成微观结构生成。可解释人工智能（XAI）方法的发展，如基于Grad-CAM的方法，通过可视化卷积层的激活图来解释网络关注图像的哪些区域，提高了深度模型的可解释性。

在深度学习在材料微观结构和表面表征中的应用方面，这些方法在微观结构分割、相分类、超分辨率（SR）和缺陷检测中提供了高准确性。超分辨率重建是DL在微观结构表征中的重要贡献之一，用于增强EBSD数据。Durmaz等人使用基于U-Net的方法在复杂相钢中实现了高精度相识别。Warren等人使用在多个数据集上训练的CNN有效地检测了晶粒和晶界。一些研究专注于材料合成或从微观结构数据生成虚拟样本，例如Huang等人开发的基于GAN的模型3DPmmGAN，能够实现多孔介质微观结构的三维再现。基于CNN和ViT的方法也已用于微观结构分类，例如Kaufmann等人使用小样本迁移学习根据空间群分类EBSD模式，Azimi等人使用全连接卷积神经网络在像素级对钢铁微观结构进行分类。物理学信息深度学习（PIDL）作为一种有前景的方向出现，将领域特定约束整合到神经网络架构中。在表面表征方面，DL模型用于缺陷检测和表面质量评估，例如Vasan等人使用基于ViT的系统高精度检测热轧钢板的表面缺陷，Gao和Zhang等人开发了基于YOLOv5和YOLOv8的改进模型用于实时缺陷检测。

总之，基于DL的方法在微观结构和表面表征中建立了新范式。高级架构如CNN、U-Net、ViT和GAN在分割、分类、超分辨率、缺陷检测和数据合成等任务中实现了高精度。这些方法提高了数据处理效率，并通过可解释人工智能方法增强了决策的透明度。这些方法进步已导致广泛的实际应用。

在微观结构与表面表征方面，AI和DL支持的图像处理方法通过提供比传统金相分析更快、更准确和更可重复的结果，彻底改变了该领域。Azimi等人使用全连接卷积神经网络加速了钢铁微观结构中的相分离自动化。Durmaz等人使用U-Net架构在复杂相钢中跨多个成像制度提取微观结构。Fotos等人在Ti-6Al-4 V合金中提出了结合分水岭算法与边界类语义分割的混合方法。Warren等人使用在真实和合成数据集上训练的CNN在晶粒和晶界分割中展示了高泛化性能。为减少对大规模标注数据集的依赖，最近的微观结构表征研究越来越多地探索自监督学习和对比学习框架。在基于GAN的微观结构重建方面，Huang等人使用3DPmmGAN模型生成了三维多孔介质微观结构，Mosser等人和Amiri等人也展示了使用GAN进行3D微观结构重建。此外，基于图像处理的经典方法也做出了重大贡献，例如Ercetin等人使用图像处理确定了Mg-Al-Sn合金微观结构中的相比例和晶粒尺寸，Akkoyun开发的自动晶粒计数算法对于确定镁合金的微观结构参数至关重要。

在表面缺陷检测和分类方面，DL模型驱动的目标检测算法已有效用于识别钢铁和其他金属表面的缺陷。Vasan等人开发了基于ViT架构的模型，准确检测和分类热轧钢表面的缺陷。Wang等人使用基于Swin-Transformer–YOLOv5的轻量级模型成功实时检测了钢带表面的缺陷。各种YOLO变体也在识别表面缺陷方面取得了显著成功，例如Gao等人的YOLOv5-KBS算法和Zhang等人的改进YOLOv5模型。缺陷检测不仅限于钢铁产品，Chen等人开发了使用DL支持的图像处理检测工业部件表面缺陷的系统，Das等人使用DL检测钢结构的腐蚀，Ar?等人开发了使用机器视觉方法检测齿轮缺陷的系统。

尽管深度学习的兴起，但系统性比较揭示，传统机器学习方法在特定的工业环境中仍然具有显著优势。深度学习模型通常需要大规模标注数据集，而传统方法如LBP和GLCM在数据要求方面效率高得多，在最少样本下也能有效工作。在可解释性方面，这些传统算法提供了“玻璃盒”透明度，允许对空间纹理相关性进行物理验证，而DL模型通常仍是“黑匣子”。此外，传统方法的计算成本显著更低。这种对比突显了一种权衡：虽然深度学习为复杂模式提供了更高的准确性，但传统机器学习为简单的工业任务提供了更具可解释性和资源效率的解决方案。

在不确定性建模方面，模糊、直觉和软集方法的混合方法为处理微观结构分析中的不确定性提供了替代方案。例如，模糊kNN算法通过引入基于每个邻居类隶属度的投票机制来软化经典kNN的严格性。模糊SVM通过为每个数据点分配不同的隶属度值来软化支持向量机的严格决策边界。更复杂的方法，如模糊参数化模糊软矩阵和直觉模糊参数化直觉模糊软矩阵分类器，通过考虑隶属度和非隶属度来整合犹豫信息，从而显著提高了准确性和稳定性。

总之，AI和DL支持的方法显著推进了微观结构表征和表面缺陷检测。这些方法发展减少了对人工解释的依赖，并促进了在学术研究和工业质量控制中日益应用的数据驱动工作流。然而，报告的模型性能必须根据具体任务和评估协议来解释。在验证方面，现有研究呈现异质性景观，一些研究采用严格的策略如k折交叉验证，而许多研究依赖于留出验证。未来的研究应侧重于创建更全面的多模态开放数据库、开发适合域适应的模型，以及设计具有高度可解释性的混合人工智能系统。

在未来研究趋势与挑战方面，一个重要的未来研究趋势是创建更全面的、多模态的和良好标注的开放数据库。数据缺乏和标注挑战仍然是最大的瓶颈之一，需要通过半自动标注、主动学习和自监督学习技术来解决。未来研究还需要解决多尺度和时间序列分析、工业应用与实时监控、伦理、透明度和标准化等问题。最终，AI支持的图像处理方法有望成为学术和工业应用中标准表征协议不可或缺的一部分。

热点排行