《Minerals》:Recent Advances and Future Perspectives of AI-Based Mineral Exploration: A Review of Machine Learning, Deep Learning, and Geologically Informed Approaches
编辑推荐:
在能源转型与碳中和目标驱动下,全球对关键矿产的需求正在快速增长,而新矿床的发现却日益困难,原因在于易于识别的地表露头矿床正在逐渐枯竭,勘查工作正转向隐伏矿化系统。在此背景下,基于机器学习(ML)和深度学习(DL)的数据驱动方法正日益成为常规地质、地球化学、地球
在能源转型与碳中和目标驱动下,全球对关键矿产的需求正在快速增长,而新矿床的发现却日益困难,原因在于易于识别的地表露头矿床正在逐渐枯竭,勘查工作正转向隐伏矿化系统。在此背景下,基于机器学习(ML)和深度学习(DL)的数据驱动方法正日益成为常规地质、地球化学、地球物理及遥感方法的重要补充。该综述对过去十年发表的基于人工智能的矿产勘查研究进行了结构化综合,重点关注四个关键方面:理论基础;在多类勘查数据中的应用,包括遥感、地球化学、地球物理和钻芯影像;矿产远景预测制图(MPM)方面的进展;以及新兴趋势与挑战,如标注数据有限、不确定性量化、地质一致性、可解释性、物理信息神经网络(PINNs)以及基础模型向地球科学数据的适配。卷积神经网络(CNNs)、自编码器(Autoencoders)、生成对抗网络(GANs)、Transformer 和图神经网络(GNNs)在提升模式识别、数据集成和工作流程自动化方面展现出较强潜力。总体而言,基于人工智能的勘查预计将在探测隐伏矿床及增强关键矿产供应链韧性方面发挥日益重要的作用。
1. Introduction
文章首先从全球能源转型和碳中和背景切入,指出锂、钴、镍、铜、石墨及稀土元素等关键矿产需求显著攀升,而新矿床发现率在过去数十年持续下降。作者强调,未来多数关键矿产资源将以深部隐伏矿床形式存在,常被沉积覆盖层或成矿后覆盖层掩埋,因此勘查重心已由浅表露头矿床转向埋深达数百至数千米的深部目标。在此形势下,稳定关键矿产供应链已成为全球多地区的战略重点,也推动了新一代勘查基础设施、数字数据平台及人工智能辅助靶区圈定流程的发展。
随后,文章系统分析了传统矿产勘查流程的局限性。常规方法通常依赖地质填图、地球化学测量、年代学、地球物理调查和钻探,并以专家经验和矿床模型为核心进行知识驱动解释。这类方法在成熟矿床类型中具有有效性,但面对新区域和隐伏矿体时存在明显不足,包括矿床模型过度细分导致可迁移性弱、单一技术解释不确定性高、线性叠加难以表达成矿过程中的非线性多变量相互作用,以及海量异构数据超出人工综合解释能力。基于此,作者提出,机器学习(ML)与深度学习(DL)正在形成矿产勘查的重要数据驱动范式,能够在多源数据融合、非线性空间模式识别、专家知识与数据混合建模、远景概率及不确定性量化等方面补充传统方法。本文综述的核心目标即在于弥合数据驱动分析与地质解释之间的鸿沟。
2. Theoretical Background of AI Methods
本节围绕人工智能方法的理论基础展开。作者首先按学习范式将机器学习划分为监督学习、无监督学习和强化学习,并指出监督学习主要用于矿产远景预测制图(MPM)、岩性分类和蚀变分类;无监督学习则广泛应用于地球化学异常识别,典型方法包括 K-means、主成分分析(PCA)、自组织映射(SOMs)及深度自编码器;强化学习在矿产勘查中的应用目前仍较少,但已有研究开始尝试将地质知识嵌入奖励机制。此外,半监督学习、正样本-未标注样本学习(PU learning)和自监督学习也被视为缓解标注稀缺的重要方向。
在经典监督学习算法方面,文章重点讨论随机森林(RF)、支持向量机(SVM)和 XGBoost。RF 具有对缺失值、非线性关系和异构变量较强鲁棒性的优势,已成为 MPM 的事实基线模型;SVM 依赖核函数实现高维特征空间中的间隔最大化,适合小样本和高维输入情形;XGBoost 作为带正则化的梯度提升实现,在处理类别不平衡数据集方面表现突出,近年来在精度和曲线下面积(AUC)上常优于 RF。深度学习方面,作者概述了卷积神经网络(CNNs)、自编码器、变分自编码器(VAEs)、卷积自编码器(CAEs)、生成对抗网络(GANs)、Transformer 以及图卷积网络(GCNs)的主要机理及其适用场景,强调这些模型在空间模式学习、异常识别、数据增强、长程依赖建模和非欧几里得拓扑表达中的潜力。
作者进一步指出,深度学习的“黑箱”特性是其在矿产勘查业务决策中的重要障碍。勘查地质学家不仅需要概率预测结果,更需要理解哪些地质因素共同作用形成某一远景评分。为此,可解释人工智能(XAI)得到迅速引入。文章重点提到 SHAP(Shapley Additive Explanations)能够从全局和局部两个层次分解断裂邻近性、侵入岩分布、地球化学异常和重磁异常等变量对预测结果的贡献,并用以检验模型输出是否符合既有成矿理论。与此同时,注意力机制解释型 CNN、基于图注意力的可解释 MPM 以及因果结构化 VAE 等方法,则尝试将可解释性直接嵌入模型架构。总体来看,作者认为不存在适用于全部勘查任务的单一最优算法,方法选择需综合数据规模、矿床类型、可解释性需求、不确定性量化需求及预测精度等因素。
3. AI Applications by Data Type
3.1. Remote Sensing and Hyperspectral Imagery for Lithology and Alteration Mapping
文章指出,遥感在矿产勘查中的核心价值在于快速、低成本、大范围获取地质信息,特别适用于偏远或难以到达地区。多光谱与高光谱数据可用于识别与成矿系统相关的蚀变矿物,雷达与热红外传感器则有助于表征控矿构造和地表属性。ASTER、Landsat 和 Sentinel-2 MSI 是代表性的多光谱卫星数据源,其中 ASTER 在短波红外与热红外区间对 Al-OH 和 Mg-OH 矿物区分能力突出;Hyperion、PRISMA、EnMAP、HySpex 和 AVIRIS 等高光谱传感器则提供数百个连续波段,可支持单矿物种识别。无人机(UAV)搭载高光谱设备进一步提供厘米至分米级空间分辨率,补充了卫星平台的尺度限制。
在算法应用方面,作者概述了 RF、SVM、人工神经网络(ANN)和 XGBoost 在遥感分类中的常见用途,并指出近年来基于 CNN 的蚀变制图因能够引入空间上下文信息而在精度上明显优于传统机器学习。文中还提到,无人机高光谱可直接识别稀土矿体中具有代表性的 Nd 吸收特征,而钻芯高光谱与扫描电镜矿物解离分析(SEM-MLA)数据的融合,则推动了自动化矿物制图的发展。作者强调,多尺度、多平台、多传感器数据的一体化集成仍是当前关键挑战,因此超分辨率重建和多传感器融合是重要研究方向。
3.2. Geochemical Anomaly Detection
本节聚焦地球化学异常识别。作者指出,地球化学数据直接反映成矿元素在岩石和土壤中的富集与扩散,但传统分析方法受到闭合和效应、背景场空间非平稳性及矿化信号稀有性等制约。因此,以 Aitchison 组合数据理论为基础的中心对数比变换(clr)和等距对数比变换(ilr)已成为标准预处理手段,而奇异性制图方法则有助于识别隐伏矿体产生的弱异常。
文章将深度学习引入视为异常检测范式的重要转变。深度自编码器(DAEs)通过学习背景分布并以重建误差识别异常样本,天然适用于低概率矿化事件的探测。此后发展出的 VAE、CAE 及融合型自编码器进一步提升了对复杂背景多峰结构的表达能力。GAN 类方法通过对抗学习背景分布,在弱异常检测中表现突出。更进一步,融入地质先验的约束模型以及基于 SHAP 的可解释成矿因子 VAE,使数据驱动异常检测从单纯“黑箱式”识别工具逐步转变为基于地质推理的决策支持工具。
3.3. Geophysical Data Inversion and Interpretation
在地球物理数据反演方面,作者强调重力、磁法、电磁法和地震数据反演对于深部矿床勘查具有关键意义,而这些非线性反问题天然存在不稳定性,因此 AI 方法优势尤为明显。传统反演强依赖正则化项与初始模型,而基于 CNN 的端到端反演可通过大规模合成数据训练,直接建立观测数据到地下参数或结构的映射,从而提高效率与鲁棒性。
不过,作者特别提醒,多物理场联合反演若仅依赖地球物理响应而缺乏与岩石物性之间的明确联系,往往病态且容易产生地质上不合理的结果。真正具有地质意义的联合反演必须引入岩石物理数据,例如密度-孔隙度关系、磁性矿物含量、视电阻率-饱和度关系以及速度-岩性关系,以将不同物性模型耦合为统一、地质一致的地下结构表达。物理信息神经网络(PINNs)在此表现出重要潜力,因为其可将控制方程与岩石物理约束共同嵌入损失函数,实现对矿物体积、孔隙度及地下结构的更一致预测。总体上,本节突出强调了 AI 反演模型只有与岩石物理约束结合,才能有效降低非唯一性并提升覆盖区下伏矿体识别能力。
3.4. Drill-Core Imagery and Petrographic Data Analysis
作者指出,钻芯是矿产勘查中最具决定性的真实地下信息来源,但传统岩芯编录耗时且易受主观偏差影响。随着可见-近红外(VNIR)—短波红外(SWIR)—长波红外(LWIR)高光谱成像、高分辨率 RGB 成像和微区 X 射线荧光(μXRF)扫描等自动化传感器的发展,结合机器学习技术的钻芯自动分析正在加速推进。相关方法可实现矿物组成、蚀变特征和组织结构的自动识别。文章认为,高光谱与 SEM-MLA 融合框架在提高矿物制图精度与空间分辨率方面具有代表性,而结合 VAE 与深度嵌入聚类(DEC)的生成式人工智能方法,则有望减少专家主观性并提高结果可重复性。该类技术预计将在大规模钻探项目自动化中发挥重要作用。
4. Research Trends in Mineral Prospectivity Mapping (MPM)
本节系统总结矿产远景预测制图(MPM)的研究进展。作者指出,MPM 是早期勘查的核心环节,其目标是定量预测有利成矿区,从而降低勘查成本和风险。该领域早期主要依赖证据权重法(WofE)和模糊逻辑等知识驱动方法,近二十年来则迅速转向数据驱动框架。随机森林、支持向量机、人工神经网络及深度学习模型已成为主流,且自大数据背景下的深度学习应用兴起后,MPM 正向自动化、定量化方向持续演进。
作者进一步强调,不同矿床类型对应的证据层组合和算法选择并不相同。斑岩型 Cu–Mo 矿床通常整合基于 ASTER 和 Sentinel-2 的蚀变信息、重磁异常与地球化学数据,并常采用 RF、XGBoost 和 CNN;造山型金矿系统则尤其依赖断裂邻近性与蚀变带信息;稀土(REEs)与锂矿床因训练样本稀缺而更需要 GAN 增强、少样本学习和标签高效学习策略;沉积容矿 Zn–Pb 系统则已出现大陆尺度的数据驱动远景评价。作者还指出,多源数据融合相较单一数据集可显著提升 MPM 精度,但训练样本的数量、空间分布与代表性同样决定模型鲁棒性与泛化能力。当前常见融合策略包括特征级融合、模型级集成和决策级加权,CNN 适合多通道输入融合,而 GCNs 与图注意力网络(GATs)更适合处理非欧几里得地质单元图结构;结合 Transformer 与图学习的混合框架则代表了下一代方法趋势。
在二维地表 MPM 之外,作者还讨论了三维与四维 MPM 的快速发展。三维 MPM 综合钻孔数据、三维地球物理反演结果和地质块体模型,可借助三维 CNN 与注意力机制描述深部隐伏矿床空间结构;进一步引入时间维度后,四维 MPM 还尝试结合热力学成矿模拟预测矿化的时空演化。文中通过加拿大北部造山型金矿带的 VNet 三维体积 CNN 实例,说明 AI 靶区预测在稀疏数据条件下也可实现经钻探验证的成功预测。作者据此强调,AI 在勘查中的实际价值应更多通过可证伪的钻探验证来衡量,而不仅限于交叉验证 AUC 指标。最后,本节还从勘查阶段视角归纳方法适用性:区域普查阶段更适合无监督、标签高效及区域尺度 MPM 方法,而靶区生成与详查阶段则更适合多源融合 CNN、三维 MPM、图神经网络、带岩石物理约束的 PINNs 及可量化不确定性的监督模型。
5. Recent Trends and Challenges
作者将当前挑战概括为几个方面:已知矿床极度稀缺、预测结果缺乏不确定性表征、模型解释性不足、纯数据驱动模型可能违反地质与物理规律,以及基础模型在地学领域应用尚不成熟。针对样本稀缺问题,文章总结了数据增强、GAN 合成数据、自监督学习、半监督学习、迁移学习和图对比学习等策略,并指出空间分块交叉验证对于抑制过拟合与标签泄漏具有重要意义。
在可信决策方面,作者认为不确定性量化和可解释性正在成为标准配置。贝叶斯神经网络、Monte Carlo dropout 和深度集成方法可用于刻画认知不确定性,SHAP、LIME 和注意力可视化则有助于识别关键控矿因子。另一方面,PINNs 及知识融合模型通过把 Maxwell 方程、岩石物理关系及成矿模型中的硬约束和软约束纳入损失函数或知识图谱,正推动 AI 预测向物理一致和地质一致方向发展。
关于基础模型与大语言模型(LLMs),作者持审慎态度。当前较成熟的应用主要限于地质报告和钻探日志的自然语言处理(NLP),以及基于标注库的钻芯矿物与岩性分类;而端到端从非结构化报告中提取 MPM 证据层、基于检索增强生成(RAG)的地质知识推理、或利用通用视觉基础模型进行零样本地质解释等,仍处于概念验证阶段。作者同时指出,AI 在矿产勘查中的部署还涉及资源分配公平性问题:高质量专有数据、高算力和预训练模型高度集中于少数地区和机构,若缺乏开放且符合 FAIR 原则的数据平台、能力建设合作和收益共享机制,AI 可能加剧而非缓解关键矿产发现能力的不平衡。
6. Future Perspectives and Conclusions
在结论部分,作者认为,过去十年中基于人工智能的矿产勘查已实现快速发展,但训练数据稀缺及空间偏倚、跨区域迁移困难、地质与物理一致性不足、不确定性量化缺失、解释性有限以及算法偏差与类别不平衡等问题仍普遍存在。自监督学习、领域自适应、物理集成模型、贝叶斯不确定性估计及 XAI 的联合应用,正逐步缓解这些瓶颈,但标准化评估协议和开放基准数据集的缺失仍限制了跨研究比较与实际落地。
作者进一步提出,将方法学进展转化为勘查公司可执行实践,需要围绕五个相互支撑的支柱推进:符合 FAIR 原则的数据标准化体系、基于空间分块交叉验证和钻探验证的验证协议、面向靶区的逐点不确定性表达、以专家复核为核心的人机协同流程,以及覆盖代表性矿床类型与数据模态的开放基准数据集。与此同时,AI 赋能找矿并非单独决定矿床发现的唯一因素,其实际成效仍受到许可审批、环境监管、原住民和地方社区知情同意、地缘政治风险及 ESG 资本配置等非技术因素制约。因此,基于人工智能的矿产勘查更应被视为一个更广泛社会—技术系统中的关键组成部分。总体而言,本文认为卷积神经网络(CNNs)、自编码器、生成对抗网络(GANs)、Transformer、图卷积网络(GCNs)、可解释人工智能(XAI)及物理信息神经网络(PINNs)正持续强化隐伏深部矿床的系统识别能力,并有望成为保障全球关键矿产供应链的重要技术支柱。