通过图自监督学习和距离编码Transformer对地球化学调查数据进行建模
《Applied Geochemistry》:Modelling of geochemical survey data via graph self-supervised learning and distance-encoding Transformer
【字体:
大
中
小
】
时间:2026年04月16日
来源:Applied Geochemistry 3.4
编辑推荐:
本研究提出融合图自监督学习与Transformer模型的方法,通过构建基于距离阈值和余弦相似性的地质化学图,结合GCN提取局部空间特征,并利用距离编码机制增强Transformer对全局拓扑结构的建模能力,有效识别复杂地质环境中的矿物化异常。在新疆天山南麓地区验证表明,该方法显著提升异常识别精度。
陈志毅|熊一辉|范瑶|左仁光
摘要
识别地球化学异常对于矿产资源评估至关重要。然而,开发有效的模型来捕捉地球化学调查数据中的复杂空间模式,以及克服训练样本稀缺带来的限制,仍然是将深度学习算法应用于地球化学调查数据建模的两个主要障碍。在这项研究中,我们提出了一个结合图自监督学习和Transformer的框架,用于识别与矿化相关的地球化学异常。该框架利用图卷积网络捕捉地球化学调查数据中的局部空间特征,而Transformer则用于建模全局空间依赖性,从而解决了图神经网络在处理全局空间信息方面的局限性。我们根据距离阈值和图节点之间的余弦相似性构建了一个地球化学图。此外,还设计了一种距离编码机制,以帮助Transformer捕捉地球化学图的拓扑结构,从而能够精确地建模局部空间相关性和全局连通性。该模型在中国天山南部地区的有效性得到了验证,Transformer的集成显著提高了其捕捉全局连通性的能力,并增强了在复杂地质环境中识别异常的性能。此外,距离编码机制的加入进一步提高了模型的性能,提高了其识别地球化学异常的能力。这种方法在捕捉复杂异常模式方面表现出了有效性,为该地区的未来矿产勘探活动提供了重要的地球化学见解。
引言
作为地球科学的一个基本分支,地球化学是一门研究地质系统中地球化学元素的存在、运动和转化的学科(Xie和Chen,2001;Steefel等人,2005;de Caritat和S?ther,2020)。其主要目标是揭示地球化学元素分布之间的内在关系,并识别潜在的空间分布模式,这对于解释地质过程和评估矿产资源至关重要。地球化学调查数据的空间分布表现出显著的异质性,元素浓度受到地质因素、矿化过程和人类活动的共同影响。这通常会导致形成结构化模式,如方向趋势和聚集,这些模式反映了潜在的地质过程和外部影响(Carlson,1987;Cheng,2007,2012;Reimann等人,2011)。此外,矿化及相关现象发生在不同的时间和空间范围内,给地球化学数据集的解释带来了显著的复杂性和不确定性(Cheng,1999;Yousefi等人,2013;Zuo,2017)。
数据驱动的人工智能(AI)已成为地球化学调查数据解释中的前沿方法,特别是在处理复杂、非线性和高维数据集以及识别地球化学异常方面非常有效(Xiong和Zuo,2016;Chen等人,2023;Zuo等人,2019,2025)。特别是,利用图神经网络(GNN)的AI模型在这方面非常有效,因为它们可以捕捉地球化学异常的独特空间特征,并有效地建模地球化学调查数据中的空间各向异性(Guan等人,2022;Zuo和Xu,2023)。然而,这些模型的有效性在很大程度上取决于是否有大量标记样本用于训练,而这通常受到地质环境中矿化现象稀少的影响,导致标记样本的缺乏、不平衡或不存在(Cheng,2007)。标记样本的稀缺限制了模型的泛化能力,阻碍了其实际应用(Karpatne等人,2018;Chen和Zuo,2025)。
自监督学习(SSL)是一种新兴的学习范式,它通过设计预训练任务来自动从数据中提取语义表示,而无需手动标记(Jin等人,2020;Wu等人,2021;Hassani和Khasahmadi,2020)。SSL利用未标记数据中的隐式监督信号,并基于少量标记样本对模型进行微调,大大减少了对标记数据的依赖(Hendrycks等人,2019;Xie等人,2023)。SSL在图像去噪、分子图分析和语言序列处理等不同领域得到了广泛应用(Xie等人,2020;Li等人,2023)。通过将GNN与SSL结合,这种方法可以充分利用图结构信息和未标记数据,使其成为矿产潜力绘图领域的一个非常有前景的发展方向(Meng和Zuo,2025;Zuo,2025)。
然而,地球化学调查数据的复杂空间特征对模型提取空间特征的能力提出了更高的要求。热力作用、构造应力、流体运动、风化过程和其他地质动态的相互作用导致地球化学调查数据既表现出局部空间相关性,也表现出全局连通性,这反映在空间变异性和数据复杂性上(Cheng,2007,2012;Yousefi等人,2013,2019)。这些现象由地质过程驱动,导致元素的各向异性分布和长距离迁移,从而形成跨越多个空间和时间尺度的复杂地球化学结构(Reimann等人,2001;Xu等人,2025)。在这种情况下,Transformer模型通过其自注意力机制擅长捕捉长距离空间依赖性,并动态识别地球化学数据中的全局空间关系(Vaswani等人,2017)。这种能力使Transformer不仅能够捕捉序列中位置之间的非结构化依赖性,还能更好地理解整个数据集的空间关系。相比之下,基于图的模型在处理局部空间结构和邻接关系方面表现出很强的能力,特别是在提取短距离依赖性和地质结构信息方面(Min等人,2022a;Xu和Zuo,2024)。因此,将图SSL与Transformer相结合,可以有效地提取局部空间特征,同时通过全局互连性建模长距离依赖性,从而实现对地球化学异常更有效和全面的表示(Wu等人,2021;Xu等人,2025)。Chen和Zuo(2025)提出了一个结合地质知识的图SSL预训练框架,通过嵌入矿体空间密度和控矿因素的幂律函数来增强地球化学特征的捕捉。Zuo(2025)提出了一个结合预训练和微调的自监督图-Transformer模型,该模型受到地质知识的约束。预训练从地质数据中学习空间模式,而微调使用带有标记数据和先验知识的交叉熵损失来提高矿产潜力绘图的可靠性和可解释性。
另一方面,Transformer主要针对线性和序列数据设计,而图具有无序、非线性的拓扑结构。简单地将图数据与Transformer模型结合可能会导致拓扑信息的丢失,这对有效处理图结构数据是一个重大挑战(Rong等人,2020;Min等人,2022b)。图中的拓扑关系,特别是节点的相对位置和邻接性,对于捕捉地质信息至关重要,忽略它们可能会对模型性能产生负面影响。
在这项研究中,我们提出了一个结合图SSL和Transformer的框架,使用图节点之间的余弦相似性为地球化学图分配边权重,从而促进特征相似节点之间的信息传递,并改善局部特征传播。此外,在Transformer现有的位置编码机制的基础上,我们引入了一种距离编码(DE)机制,使Transformer能够在其输入中考虑图的拓扑结构。这种方法使结合图SSL和Transformer的模型不仅能够捕捉地球化学数据中的局部邻接关系,还能捕捉全局依赖性,同时结合图的拓扑特征,从而实现更有效的图表示。在中国天山南部地区进行了案例研究,以测试该方法识别与矿化相关的地球化学异常的能力,从而验证了其有效性。
部分摘录
框架概述
本研究中用于提取与矿化相关的地球化学异常的结合图SSL和Transformer模型包括预训练和微调(图1)。该框架结合了图卷积网络(GCN)和Transformer,并包含三个关键组成部分:(1)构建地球化学图,(2)在图SSL的预训练期间使用GCN和Transformer进行特征提取,(3)使用已知的标记样本对模型进行微调
地质背景
南天山金属带位于中央天山和喀拉库姆-塔里木板块之间,横跨中亚并延伸至中国西部。它是更广泛的亚洲金带的关键组成部分(Abzalov,2007)。南天山造山带是由古亚洲洋的闭合以及随后晚古生代塔里木克拉通与哈萨克斯坦-伊犁地块的碰撞形成的(Han等人,2011;Golovanov等人,2005)。这种大陆碰撞
识别与矿化相关的地球化学异常
为了识别地球化学异常,我们在SSL的预训练阶段整合了GCN和Transformer模块。GCN负责编码图的地球化学特征并生成节点嵌入,其中GCN构建的地球化学图的节点特征由采样点的地球化学元素特征决定。边的构建和加权由距离阈值和余弦相似性决定
结论
我们提出了一个结合图自监督学习和Transformer模型的框架,用于识别地球化学异常。该框架通过利用距离阈值和图节点之间的余弦相似性构建地球化学图,并在Transformer中加入距离编码机制,以有效捕捉图的拓扑结构。这种方法提高了模型学习和表示地球化学空间分布的能力
CRediT作者贡献声明
陈志毅:写作——审稿与编辑,撰写——初稿,方法论,数据管理。左仁光:写作——审稿与编辑,撰写——初稿,监督,概念化;可视化,验证,数据管理。熊一辉:写作——审稿与编辑,撰写——初稿,方法论
未引用参考文献
Gao等人,2009;Guo等人,2016;Liu等人,2021;Mirkamalov等人,2012;Rong等人,2019;Xie和Cheng,2001;Zhang等人,2021;Zuo等人,2021。
利益冲突
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本研究得到了中国新疆维吾尔自治区关键研发计划(2024B03010-3)和国家自然科学基金(42425208,42321001)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号