物理引导的多任务学习用于共同预测氧化物ABO3钙钛矿的带隙和静态介电响应
孙宇、
秦一航、
陈文浩、
赵文辉、
孙昊然
《Crystals》:Physics-Guided Multitask Learning for Joint Prediction of Band Gap and Static Dielectric Response in Oxide ABO3 Perovskites
Yu Sun,
Yihang Qin,
Wenhao Chen,
Wenhui Zhao and
Haoran Sun
【字体:
大
中
小
】
时间:2026年04月28日
来源:Crystals 2.4
编辑推荐:
摘要:同时具有大带隙和高静态介电常数的氧化钙钛矿(perovskites)在先进微电子学、介电器件和能源存储应用中具有相当大的研究兴趣,然而它们的发现仍然具有挑战性,因为电子绝缘性、晶格极化率和热力学可行性之间存在强烈的耦合,且常常相互竞争。在这里,我们开发了一个由物理理论指导的
摘要:同时具有大带隙和高静态介电常数的氧化钙钛矿(perovskites)在先进微电子学、介电器件和能源存储应用中具有相当大的研究兴趣,然而它们的发现仍然具有挑战性,因为电子绝缘性、晶格极化率和热力学可行性之间存在强烈的耦合,且常常相互竞争。在这里,我们开发了一个由物理理论指导的多任务学习框架,用于联合预测化学受限的单钙钛矿氧化物ABO3化合物的带隙和静态介电响应。为了确保数据真实性和物理可比性,学习空间严格限制在来自Materials Project的简单氧化物ABO3钙钛矿上,同时排除了混合保真度的带隙、异质介电定义和化学不一致的样品。该模型整合了具有角色感知的A/B位点描述符、钙钛矿特有的几何和结构特征、Eg、εtotal、εelectronic和εionic的多任务预测、显式的物理一致性约束、辅助候选分类、排名学习以及具有不确定性和异常值控制的可靠性感知筛选。在B位点分组交叉验证下,该框架实现了97.4%的准确率、96.5%的召回率和96.1的F1分数,并在独立的JARVIS验证集上保持了良好的迁移能力。结果表明,高带隙/高k值的候选材料占据了一个由B位点主导的电子-晶格耦合控制的化学非随机子空间,而物理上一致的多任务学习显著提高了预测的连贯性和候选材料的丰富性。更广泛地说,这项研究为智能发现功能性氧化物介电材料建立了一个数据一致、物理受限且可迁移的范式。
1. 引言
具有高介电常数和宽带隙的氧化物[1]是先进微电子学、功率器件、储能电容器和新型电网介质系统中最重要的功能性材料之一。对于介质材料而言,更高的静态介电常数意味着更强的电荷屏蔽能力和更大的电容器耦合能力[2],而足够宽的禁带对应于更高的绝缘耐受性、更低的功率泄漏风险以及更有利的能带级匹配。因此,“高k值”和“宽带隙”的协同获取决定了材料是否能够在高场、低功耗和高可靠性条件下真正应用于器件。钙钛矿矿物长期以来一直是介电材料设计的重要基质[3],因为它们具有可调节的化学成分、稳定的晶体骨架、丰富的极化机制以及明显的结构性能关联;其研究价值从传统的块状介质不断增长到新的低维晶格介质[4]。例如,钛酸钡(BaTiO3)是一种典型的ABO3钙钛矿,它具有宽达约3.2 eV的带隙和在其居里温度附近高达1000的静态介电常数(εr > 1000),这支持了其在多层陶瓷电容器和可调介电器件中的广泛应用。最近的研究进一步突出了其在高频电子学和自供电传感系统中的实用性[5,6]。更广泛地说,许多ABO3钙钛矿(如SrTiO3、BaZrO3和PbTiO3)提供了多种组合的带隙和介电响应,但同时实现宽带隙(Eg ≥ 2.5 eV)和高静态介电常数(ε_total ≥ 20)的根本挑战在该材料家族中仍然存在。虽然本研究的方法是在钙钛矿上展示的,但它可以很容易地转移到其他ABO3钙钛矿系统上,前提是存在一致的物理描述符和受控的保真度标签。
然而,高k值和宽禁带介质的材料发现并不是一个简单的单目标优化问题。许多研究表明,介电响应和禁带范围之间通常存在显著的竞争关系[7]:高极化能力通常伴随着较小的带隙[8],而较大的带隙往往会减弱极化;因此,材料筛选自然呈现出典型的帕累托权衡特性。这在氧化系统中尤为明显,因为在静态介电常数中同时包含了离子极化和电子极化的贡献。这些不同机制受到局部键合、八面体变形、晶格软模块和阳离子电子配置的共同调节[9],“同时实现大的带隙和高介电常数”是一个高维、非线性和强耦合的设计挑战。换句话说,真正具有应用潜力的候选材料不是单纯追求某个特定指标的极端值,而是在带隙、总静态介电常数、结构稳定性和可行性之间取得平衡。这种不同目标之间的权衡可以通过帕累托最优前沿的概念来表征,没有哪个单一目标可以在不恶化另一个目标的情况下得到改善。帕累托最优前沿代表了平衡多个竞争目标的一组设计,可以通过优化方法找到。
一般来说,更强的极化能力意味着更高的电子云可塑性和更柔和的离子位移模式[10],这些通常伴随着更小的带隙或更明显的轨道耦合;相反,过于刚性的晶格和过深的能级分离虽然有利于维持该区域,但往往会削弱整体的介电响应[11]。对于钙钛氧化物来说,这种竞争由于电子和离子贡献的不同来源而进一步加剧,使得目标材料更接近于多目标帕累托最优前沿,而不是单一指标的极端值;也就是说,具有实际应用前景的候选材料不是那些具有最大带隙或最高介电常数的材料,而是能够在绝缘、极化和稳定性之间实现高水平的协调的材料[12]。
长期以来,实验探索和第一性原理计算一直是介电材料发现的两个主要方向[13],但两者在大规模筛选场景中都面临现实世界的瓶颈。尽管实验路径最终指向了应用的真实性,但它不可避免地受到温度、频率、密度、晶体场效应、缺陷浓度和相纯度等多种因素的影响,使得在广阔的化学空间内快速获得直接可比的内在介电数据变得困难[14]。第一性原理方法具有明确的物理可解释性,但一旦涉及静态介电常数的精确检索[15],特别是当它需要同时分析电子和离子响应并考虑大量候选结构时,其计算成本会迅速上升。更重要的是,虽然公共数据库为数据驱动的材料研究奠定了坚实的基础,但它们也带来一个常被忽视的问题:当直接混合不同的来源、不同的保真度和不同的物理定义标签时,模型往往不是学习材料本身的规律,而是学习数据库之间的差异、方法差异,甚至是噪声结构[16]。本研究的数据清洗原则精确捕获了这个关键挑战,即严格限制在氧化物单钙钛矿ABO3上,避免将实验带隙与DFT带隙混合,避免混合基本带隙、光学带隙和实验带隙,同时明确区分etotal、eelectronic和eionic的物理含义,确保训练目标的可比性和可解释性[17]。因此,针对高κ值氧化物ABO3钙钛矿的机器学习研究的真正有价值的方向不仅仅是堆叠更复杂的黑 box模型,而是将钙钛矿材料科学中最核心的组成部分、几何结构和结构信息明确转化为物理知识描述符,并在模型层面体现目标之间的内在耦合关系[18]。对于ABO3系统,A/B位点元素的原子序列、电负性、离子半径、原子质量和d电子占据决定了基本的化学环境;几何量如Goldschmidt容忍因子、八面体因子和A/B半径比反映了钙钛矿骨架的构象适应性;结构特征如B-O键长统计、B-O-B键角、局部八面体变形、晶体系统和空间团与晶格软化、离子位移模式和电子结构演化更直接相关[19]。基于此,本研究中的模型不再将带隙和介电常数视为两个独立的回归终点。相反,它构建了一个以带隙和etotal为核心的多任务框架,结合了eelectronic和eionic,并通过etotal ≈ eelectronic + eionic的物理一致性约束、候选分类辅助目标、B位点元素分组交叉验证、不确定性估计、异常值识别和共形区间,形成了一个结合预测、过滤和置信控制的研究系统[20]。
基于上述背景,本文聚焦于氧化单钙钛矿ABO3材料,利用Materials Project[21]作为训练数据源,JARVIS作为外部验证场景,协同预测带隙和静态介电常数,并进一步识别同时具有宽带隙和高k值的候选系统[22]。与现有研究相比,本文的意义不仅在于提高了定性预测的准确性,还提出了一种物理一致、数据一致且可迁移的介电材料发现方法论范式[23]:它强调了标签保真度与物理定义的统一,通过角色感知描述符表达了钙钛矿的化学本质,通过多任务学习捕捉了目标之间的耦合关系,并对模型跨数据库验证的泛化能力进行了实质性测试。我们相信,从“高通量计算数据库”到“物理受限的机器学习”再到“可靠候选筛选”的研究路径不仅可以加速高k值和宽带隙钙钛矿矿物的发现,还可以为更广泛的功能性介质材料的智能设计提供一种具有普遍意义的技术范式。
本文的创新主要体现在以下几个方面。首先,本文不仅将“钙钛矿预测”研究泛化,而且首次明确表达了由物理耦合控制的单钙钛矿ABO3材料的高k值结合带隙的协同筛选作为一个双重目标设计问题,实现了从研究主题和科学问题层面的聚焦。其次,本文强调了标签保真度与物理定义的统一,避免了实验带隙、基本带隙、光学带隙和总/电子/离子介电响应的混合建模,提高了模型结论的可靠性和可解释性,这是数据科学与材料物理交叉点的结果。第三,本文提出了一个“主要目标+辅助分解任务+物理一致性约束”的多任务框架,使模型不仅能够预测总体性能,还能学习性能的内部物理组成关系,这与常见的单一标签黑 box回归明显不同。此外,本文构建了一个综合的过滤过程,包括角色感知的物理描述符+候选分类+ B位点分组通用验证+不确定性/异常值/保留区间联合评估,使得机器学习不再局限于“作为回归器”,而是发展成为一个能够服务于真实材料发现的可靠过滤系统。总体而言,本文的贡献不仅在于提高了性能预测的准确性,还提出了一种结合物理合理性、数据一致性、跨数据库可迁移性和过滤可靠性的高k值钙钛矿智能设计范式。
2. 相关工作
2.1. 高通量第一性原理介电数据库和规则筛选
Petousis等人早期建立了一个基于密度泛函微扰理论的大规模无机材料介电数据库。该系统提供了1056种无机有序化合物的介电张量,并在明确区分后将其总贡献、电子贡献和离子贡献整合到Materials Project中。这类工作的最大优势在于,一方面它为后续介电性能预测提供了高质量、物理定义的标签源;另一方面,它为将高k值材料从“经验试错”转向“数据库驱动的筛选”奠定了基础。然而,它的缺点也很明显:这种方法本质上仍然属于高通量计算数据库构建,侧重于数据生成而非构建可泛化的预测模型;同时,其研究对象涵盖了广泛的无机晶体,而不是专注于具有明确晶体化学约束的单氧化物钙钛矿ABO3材料,这使得很难直接回答如何协同优化ABO3中的带隙和静态介电常数这一更具体的问题[24]。
2.2. 用于介电常数的机器学习代理模型
Takahashi等人利用大约1200种金属氧化物的DFPT数据构建了分别用于电子贡献和离子贡献的机器学习预测模型,并比较了仅使用组分特征与同时引入结构特征时的性能差异。这种工作的优点在于,它已经超越了单纯预测单一ε标度的做法,开始明确区分电子极化和离子极化的两种机制,因此比普通的单标签回归更接近介电物理的本质;同时,它还表明在氧化物的介电问题中,结构信息对于离子贡献尤为重要。其缺点包括:首先,这类研究通常仍然是针对介电单元的建模,并没有将宽带要求与高介电响应放在同一个优化框架中;其次,研究范围大多集中在普通金属氧化物上,而不是围绕A-/B位点的化学作用、容忍因子以及钙钛矿ABO3的八面体畸变特性进行深入探索;第三,大多数评估仅限于对同源数据集的内部验证,对于跨数据库外推能力的讨论不足[25]。
2.3. 钙钛矿带隙预测的早期特征工程研究
Pilania等人对双钙钛矿系统进行了经典的机器学习带隙预测研究。通过系统特征工程和大规模候选特征筛选,他们指出最小Kohn-Sham能级占据率(即最高占据Kohn-Sham轨道的特征值,对应于Kohn-Sham密度泛函理论框架内的价带最大值)和元素电负性是影响带隙预测的重要描述符。这项工作的优点非常突出:它早期就证明了通过可解释的特征工程可以有效地预测钙钛矿的带隙,并为后续的“材料信息学+钙钛矿电子结构设计”奠定了方法论基础。其缺点包括:首先,研究对象主要是双钙钛矿,而不是本文关注的氧化物单钙钛矿ABO3;其次,目标仅限于带隙,实际上仍是一种单一性质的预测;第三,这类工作没有涉及静态介电常数,更不用说处理总介电/电子介电/离子介电响应之间的物理层次关系[26]。
2.4. 用于候选发现的层次化带隙筛选框架
Talapatra等人进一步将机器学习嵌入到钙钛矿候选发现过程中,建立了“先分类后回归”的层次化筛选框架,用于双钙钛矿氧化物,从而从大规模化学空间中筛选出高置信度的候选材料。这类工作的优点在于,它不再局限于静态回归精度,而是使用模型来筛选和排序候选材料,从而更接近真实的材料发现工作流程。同时,层次化建模在一定程度上可以减少来自金属/窄带隙样品的宽带预测干扰。其主要缺点包括:首先,这种途径仍然以带隙为中心的过滤范式,没有将高介电常数作为统一目标;其次,研究对象不是单ABO3钙钛矿氧化物ABO3;第三,尽管这类层次化框架具有工程实用性,但往往缺乏可以直接嵌入的物理一致性约束,例如etotal = eelectronic + eionic [27]。
2.5. 针对ABO3钙钛矿氧化物的专门机器学习研究
Priyanga等人进行了一项专门针对钙钛矿氧化物(ABO3)的机器学习研究,基于5329个样本预测带隙类型(直接/间接带隙),并使用元素组成、离子半径、离子性和电负性等特征进行建模。这项工作的优点在于,它明确将研究对象限制在ABO3钙钛矿氧化物上,这与本文的研究对象更为接近;同时,其特征设计也表明传统的晶体化学描述符在钙钛矿问题上有很好的解释力。其缺点在于,这项工作侧重于带隙属性类别,而不是带隙的数值预测,更不用说静态介电常数了,这使得直接支持高k带材料的双重目标筛选变得困难;此外,这类分类研究对后续面向器件的定量排序的支持有限[28]。
2.6. 多目标介质发现的机器学习闭环研究
近年来的一项重要进展是将机器学习与后续计算/实验验证相结合,构建多目标筛选的闭环来进行介质材料发现。Riebesell等人的工作代表了这一方向,他们结合了机器学习(ML)预扫描、元素替代、后续验证和实验合成,最终获得了同时满足带隙和介电指标的候选材料Bi2Zr2O7,其带隙约为2.27电子伏特,介电常数约为20.5。这类研究的优点在于,它直接回答了机器学习是否有助于发现真实可用材料的关键问题,体现了从模型到候选材料再到验证的完整链条。其缺点在于,这类工作通常针对更宽的介电搜索空间,而不是为氧化物单钙钛矿ABO3构建专门的模型;其次,工作流程通常包括更多的人工筛选和事后判断步骤,方法论的可移植性相对有限;第三,它更侧重于发现过程本身,而不是建立一个统一、可解释且可跨数据库推广的双目标预测框架[29]。
3. 方法论
3.1. 数据来源和目标定义
本研究以Materials Project(MP)作为主要数据来源,首先从其中提取了静态总介电常数、电子介电常数和离子介电常数,然后将其与总结数据库中的带隙、晶体结构、密度、体积、稳定性和对称性信息一一匹配[30],形成监督学习样本。对于每个样本,定义了四个回归目标:
Eg = 带隙
εtot = 静态总介电常数
εelec = 电子介电常数
εion = 离子介电常数
其中静态介电常数满足物理分解关系:
εtot ≈ εelec + εion
这种物理关系在本文的神经网络训练损失函数中不仅有作为事后测试的标准,也有助于提高模型预测的物理一致性。需要注意的是,Materials Project(MP)数据库包含了使用各种交换-相关(XC)泛函计算出的DFT数据,主要是Perdew-Burke-Ernzerhof(PBE)广义梯度近似(GGA),还包括了过渡金属氧化物的PBE + U,以及在少数情况下使用HSE06或GW近似等混合泛函。这些XC泛函计算出的带隙可能有显著差异(例如,PBE通常低估带隙30-50%,而HSE06虽然更准确但计算成本更高)。如果不考虑这些系统误差而混合来自不同XC泛函的数据,可能会引入噪声并降低机器学习模型的性能。为了解决这个问题,我们采取了以下措施:
- 我们将数据集限制在仅使用标准GGA(PBE)泛函计算出的带隙上,这构成了MP数据库中的大多数条目。
- 对于仅有PBE + U数据的少数化合物,我们验证了U参数是否按照标准的MP协议一致地应用于相关的d轨道(例如Ti、Mn、Fe、Co、Ni)。
- 我们明确排除了任何来自实验测量、光学带隙或混合泛函计算的带隙标签,以避免数据真实性混合。
因此,我们的训练集保持了较高的XC一致性。我们承认PBE低估带来的残余系统误差仍然存在,但这些误差对所有样本的影响是均匀的,可以通过事后缩放或迁移学习部分纠正,这留待未来的工作解决。
3.2. ABO3钙钛矿氧化物筛选规则
为了确保研究对象的化学均匀性和结构可比性,只保留了满足简单氧化物ABO3化学计量比的样本[31]。设化学式简化后的元素计量比为:
A:B:O = 1:1:3
那么,只有同时满足以下条件的样本才会被保留:
(1) 组成为简单氧化物ABO3;
(2) 带隙Eg > 10^-6电子伏特;
(3) εtot、εelec、εion都没有被删除;
(4) 能量高于“壳层”≤0.10电子伏特/原子,这里的“壳层”指的是组成相图中的竞争相的凸包;能量高于壳层的值(ΔE_hull)是分解的热力学驱动力,通常认为≤0.10电子伏特/原子表示亚稳态或接近稳定的实验可获取相;
(5) 如果启用了严格的稳定性过滤,则Is = True。
上述规则的目的是,一方面减少非目标相和异常相对模型学习的干扰,另一方面将热力学亚稳态样本限制在可接受的范围内,从而更接近实验可实现的候选空间。
3.3. Goldschmidt容忍因子和八面体因子
为了表征钙钛矿的几何稳定性,引入了两种经典的结构因子:
(1) Goldschmidt容忍因子
其中分别是A位点、B位点和氧离子的离子半径。Goldschmidt提出的容忍因子量化了钙钛矿结构的几何兼容性:理想的立方钙钛矿对应于某个特定的比值,而通常在某个范围内的值表示畸变但仍稳定的钙钛矿相。该因子广泛用于预测ABO3化合物的八面体倾斜、晶格畸变和铁电极化的倾向。
(2) 八面体因子
其中RA、RB和Ro分别是A位点、B位点和O位点的半径。一般来说,T描述了A位点填充立方腔体的匹配程度,μ描述了BO6八面体的几何适配度。这两个因子都对八面体倾斜、晶格畸变、极化敏感性和介电响应的上限有直接影响。
3.4. 结构几何描述符
基于晶体结构,进一步提取了局部几何特征。对B-O键、A-O键和B-O-B键角进行了统计分析,并构建了以下结构描述符:
(1) B-O键长统计
(2) A-O距离统计
(3) B-O-B键角统计
其中键角定义如下:
并将其转换为角度系统,其中V1和V2是指向两个相邻B原子的O向量。
为了量化局部八面体畸变,定义了一个单一的B位点局部畸变指数:
然后对所有B位点局部异常进行了全局统计。这个量实质上衡量了BO6八面体键长的离散度,可以反映由离子半径不匹配、Jahn-Teller效应或晶体对称性破坏引起的局部畸变强度。代码中使用的邻域截断半径为:
此外,还引入了整体结构量,如密度、体积、体积/原子数、晶格常数A、B、C以及晶胞角α、β、γ。
3.5. 回归目标的对数转换
由于介电常数分布通常具有明显的大 tails 特征,在本文中,与介电响应相关的目标进行了对数压缩,以减少长尾分布对优化过程的不利影响。网络实际学习的回归目标为:
在模型预测完成后,通过逆变换恢复原始维度:
这种Log1p变换不仅保持了接近零的样本的数值稳定性,还减少了高介电常数样本对均方误差的主导影响。
3.6. 基线梯度提升模型
为了建立一个非神经网络的 baseline,我们训练了:
(1) HistGradientBoostingRegressor用于EG预测;
(2) HistGradientBoostingRegressor用于LN (1 + εtot)预测;
(3) HistGradientBoostingClassifier用于候选标签预测。
核心思想可以表示为一个加性模型:
其中H(x)是MTH提升树,ν是学习率。代码使用:
这个 baseline 模型用于补充神经网络,并在后续集成中发挥稳健作用。
3.7. 异方差高斯负对数似然
对于任何回归目标Y,预测分布假设:
然后,单样本负对数似然损失为:
在代码实现中,logvar = log σ2 作为网络输出,这样模型可以自动学习“样本依赖的噪声水平”,这比固定方差下的MSE更适合处理材料数据库中常见的异方差误差分布。
3.8. 物理一致性约束
由于静态总介电常数满足一定的物理关系,在本文中,物理一致性项被明确添加到损失函数中。请注意,网络输出是在对数空间中,因此首先需要进行逆变换:物理一致性损失被定义为对整个批次取平均值。这个术语可以抑制多任务输出之间的矛盾,使模型满足介电响应的基本分解定律。3.9. 蒙特卡洛Dropout不确定性为了估计预测不确定性,本文在推理阶段保持Dropout激活,并执行T = 40次随机前向传播。对于任何目标Y,其预测均值和不确定性被定义为其中y(t)是第t次随机前向传播的输出。对于分类任务,使用40个Sigmoid概率的平均值作为最终预测概率,其标准差作为分类不确定性。这种策略类似于贝叶斯模型平均,可以在不显著增加建模复杂性的情况下提供实际的不确定性测量。4. 材料与方法 4.1. 数据集处理主要数据集是通过将Materials Project介电数据库中的介电条目与摘要数据库中的结构、热力学和电子信息对齐来构建的,使用material_id作为匹配键。在合并之前移除了重复条目,以避免同一材料的重复包含。缺少有效结构信息、带隙标签或介电标签的样本被排除在外。在数据库对齐之后,研究空间严格限制为简单的ABO3钙钛矿。这是根据简化后的组成确定的,要求恰好有两个非氧阳离子和一个与ABO3化学计量学相一致的氧原子数。额外的过滤步骤去除了金属或接近零带隙的样本、缺少介电组分的条目以及能量高于hull 0.10 eV/原子的化合物。这些步骤确保了最终数据集在化学上集中、在物理上可解释,并适合多任务学习。为了确保训练样本在热力学上是可实现的,数据清洗过程还引入了稳定性约束。代码使用能量高于hull作为默认的热力学筛选标准,只保留能量≤ 0.10 ev/原子的样本;如果用户启用更严格的标准,可以进一步要求is = True,即只保留数据库标记为稳定相的材料。当前的默认配置使用了前者,这允许稍微亚稳态的材料进入训练集,而不会导致样本过多减少。这种设置在材料信息学研究中具有明显的合理性:完全稳定的相虽然可信度最高,但数量较少;适度包含低能量的亚稳态相有助于扩展化学空间的覆盖范围,这对材料信息学的发展是有益的,同时仍然将样本限制在那些可能在实验或理论上实现的材料上[32]。值得一提的是,在代码实现中,如果能量高于hull是有限的并且超过了阈值,它将被直接剔除;这意味着热力学上过于不稳定的项不会干扰模型对“高带隙–高介电-可实现”目标区域的学习。此外,在最终构建候选标签时,能量高于hull也再次被用作筛选条件,以监督目标定义,从而使稳定性信息不仅反映在前端清洗中,也反映在能量高于hull的评估中,以及在整个后端候选材料学习任务中。在完成样本级别的数据库过滤后,代码不仅仅停留在简单的元素计数或one-hot组成编码上,还进一步构建了具有角色意识的物理特征,这些特征可以应用于数据库;这实际上是数据处理的重要部分。对于ABO3钙钛矿,A位点和B位点离子在晶体中扮演着完全不同的结构和电子角色,因此代码首先根据元素半径的大小自动分配A/B位:两个阳离子中较大的一个被定义为A位,较小的一个被定义为B位。半径是通过分层回退机制获得的,该机制优先考虑平均离子半径,然后是计算出的原子半径,然后再次使用原子半径来最小化由于缺少单一物理量而导致的角色确定失败。在此基础上,程序提取了三个位点A、B和O的原子序数、族、周期、原子质量、电负性、半径和d轨道占据率,然后计算了这三个位点的原子序数、族、周期、原子质量、半径和d轨道占据率;此外,还构建了A-O、B-O和A-B之间的电负性差异、A/B的质量比和半径比,以及经典的Goldschmidt容差因子和八面体因子。应该指出的是,虽然这本质上是“特征工程”,但从论文的角度来看,也应该被视为“数据清洗和规范的一部分”,因为它完成了从原始数据库记录到可解释的物理描述符的标准映射,并将原本没有角色的化学组成转换为具有晶体学物理意义的有序输入。如果样本无法成功确定A/B位,或者关键组件特征的生成失败,该样本将不会进入最终的建模表,从而确保后续学习对象在物理表示上的一致性。除了在组成层面进行角色意识处理外,代码还对晶体结构进行了系统的局部几何清洗和统计表征。具体来说,从pymatgen的结构对象开始,程序在B位点中心周围3.2埃的截止半径内搜索氧邻居,以提取B-O键长分布。在A位点中心周围4.2埃的截止半径内搜索氧邻居,以表征A-O配位环境;同时,在每个氧位点的B-O-B邻域中构建B-O-B键角,计算每个氧位点的B-O-B键角,用于捕捉八面体连接网络的扭曲和倾斜程度。对于上述局部几何量,代码不仅取一个平均值,还输出平均值、标准差、最小值、最大值和计数的五个统计量;如果至少检测到四个氧邻居,则进一步计算键长分散std (d)/平均值 (D) 作为局部八面体畸变指数,并在整个晶体中再次进行统计总结。这种方法有两个优点:首先,它允许在不同的晶体对称性和局部畸变程度上进行统一、固定维度的比较;其次,它通过使用统计量而不是原始邻接列表,消除了由于不同晶体中邻居数量变化而导致的维度不一致性问题。如果样本由于结构异常、邻居识别失败或几何特征生成错误而无法完成上述步骤,代码将发出警告,并自动将样本从最终特征表中排除。这种严格的“成功或失败”策略可以显著提高最终训练数据的结构可靠性和特征一致性,尽管牺牲了一小部分样本。在形成包含组成、结构和数据库元信息的工程样本表之后,代码还进行了表级预处理,以适应机器学习建模。首先,从特征矩阵中提取元数据列,如材料、公式、A/B位元素符号、晶体、稳定性标签和目标变量,并仅保留数值输入字段;随后,将元数据列与特征矩阵分离,并对晶体进行one-hot编码,将离散的对称性信息整合到连续的模型输入中。值得注意的是,代码统一调用了PD.to(errors = “Coerce”),即任何无法直接数字化的条目都被转换为缺失值Nan,而不是保留为字符串或隐式丢弃。从数据工程的角度来看,这一步骤至关重要,因为它将潜在的脏数据(如“非标准格式、解析失败、类型不一致”)整合为单一的缺失状态,以便使用统一的统计规则进行后续处理。同时,只有四个回归目标中的带隙保持了原始尺度,而总介电常数、电子介电常数和离子介电常数都经过了Log1p转换,即转换为LN (1 + ε)。这种目标尺度压缩处理是当前代码中非常重要的数据预处理设计:它有效地缓解了由高介电样本引起的长尾分布问题,使训练过程中的梯度更加稳定,并减少了训练过程的复杂性;它还减少了极端大样本对误差函数的主导影响。在处理缺失值和标准化阶段,代码采用了严格的训练集拟合验证/测试集转换模式来消除统计泄漏。具体来说,预处理器包括两部分:使用SimpleImputer(strategy = “Median”)对数值特征进行中位数插补,然后使用StandardScaler进行零均值、单位方差的Z分数标准化。中位数插补而不是均值插补的优势在于,它对长尾分布和少量异常值更加鲁棒,特别是对于材料数据库中常见的偏态描述符;标准化过程可以使不同维度和不同数值尺度的组成和结构特征对神经网络和梯度提升模型有更可比的贡献。更重要的是,代码仅在每个交叉验证折叠的内部训练子集上显式拟合插补器和缩放器,然后将同一组参数应用于该折叠的验证集和测试集。这意味着测试集从不参与任何统计量(中位数、均值、标准差)的估计,确保了评估结果的严谨性。此外,在构建辅助排名目标时,如果能量缺失,则用当前样本集中中位数替换,这属于对单个排名辅助变量的鲁棒完成策略,可以用来构建辅助排名目标,避免由于热力学字段数量少而中断排名任务的构建。为了避免模型因“相同的B位化学家族的重复统计模式”而错误地表现出高性能,代码还在数据划分层面采用了防泄漏的验证机制,按B位元素进行分组。具体来说,整个数据集使用GroupKFold进行交叉验证,以B位元素符号作为组标识符;因此,任何B位化学家族不能同时出现在相同的训练集和测试集中。这对于ABO3钙钛矿来说很重要,因为B位过渡金属或主族离子通常主导带隙形成、八面体畸变和介电响应的主要趋势;如果训练集和测试集共享相同的B元素,模型很可能只会学习到“记住某个B元素家族的统计分布”,而不是真正建立可转移的结构-属性映射。在每个外部层中,代码还划分了额外的15%内部验证集,用于提前停止、模型权重选择和随后的集成权重校准;因此,在训练、验证和测试之间形成了清晰且无交叉污染的数据边界。最后,从候选过滤任务的角度来看,代码还在数据表中显式构建了一个场景导向的派生标签。当样本同时满足带隙≥ 2.5 eV、总静态介电常数e ≥ 20和能量≤ 0.10 eV/原子时,它被定义为正类候选材料is = 1;否则,is为0。严格来说,这一步超出了传统“数据清洗”的狭义范围,但在材料信息学论文写作中,它是“数据注释和任务定义”的关键组成部分。必须在第4.1节中描述。本研究中的模型不仅学习了连续回归目标,还学习了“高带隙–高介电性-可实现”这一稀有目标区域的分类边界;也就是说,前端清洗过程和后端监控目标不是相互独立的,而是协同工作,以服务于候选材料发现的最终科学问题。本研究的数据集构建和模型表示总结如表1所示。表1. 数据集构建和模型准备表示的总结。4.2. 实验环境设置表2是本研究中使用的硬件环境表,表3是本研究的模型训练参数设置表。表2. 本研究使用的系统环境。表3. 本工作中使用的完整模型和训练超参数设置。4.3. 实验过程和模型训练本研究使用Materials Project数据库作为模型开发和内部验证的主要数据来源。首先,通过materials.dielectric接口提取与介电相关的标签,包括总静态介电常数ε_total、电子贡献ε_electronic、离子贡献ε_ionic和折射率信息;然后通过materials.summary接口补充结构热力学信息,如带隙、晶体结构、密度、体积、原子序数、稳定性、壳层以上能量和对称性,并以material_id作为键完成多源标签合并。在样本清洗阶段,仅保留符合简单氧化物ABO3化学计量比的钙钛氧化物,同时剔除结构缺失、标签缺失、数值非有限、带隙接近零和热力学稳定性差的样本;本文实现中采用E_hull ≤ 0.10 eV/atom作为热力学可接受阈值,并可以通过切换进一步限制为严格稳定的样本。为了后续的高带隙-高介电候选筛选,进一步定义了辅助分类标签:当样本同时满足E_g ≥ 2.5 eV、ε_total ≥ 20和E_hull ≤ 0.10 eV/atom时,将其标记为潜在候选。这一步确保了训练数据具有清晰的物理边界条件,并与后续筛选目标保持一致。为了避免模型仅依赖“黑箱”统计相关性,本研究为钙钛氧化物矿物系统显式构建了具有晶体化学意义的物理描述符。对于组分特性,首先根据阳离子半径的大小自动区分A位和B位元素,并围绕它们的原子序数、家族、周期、原子质量、电负性、离子半径、A-O/B-O/A-B电负性差异、d电子占据数、Goldschmidt容忍因子和八面体因子等参数进行表征。对于结构特性,进一步根据晶体结构对象提取B-O键长统计、A-O配位距离统计、B-O-B键角分布、局部八面体变形程度以及晶格常数、晶胞体积、体积密度、平均原子体积等几何信息,其中B-O和A-O邻近切割半径分别设置为3.2 ?和4.2 ?。除了连续变量外,模型还对晶体系统信息进行one-hot编码,以保留低维对称性信息。对于回归目标,在代码中对ε_total、ε_electronic和ε_ionic使用loglog(1 + x)变换,因为介电常数分布通常是偏态的,而带隙保持线性空间预测。缺失的特征用训练集度量值的中位数填充,并进一步标准化,以确保联邦学习中不同类别描述符的数值稳定性。集成学习框架。模型主体不是单一的回归器,而是一个由“物理约束的神经网络+梯度提升树基线”组成的异构集成框架。神经网络部分构建了PhysicsHybridNet,其编码器包括线性层、LayerNorm、GELU激活函数和dropout,后面跟着三个残差块以增强高维非线性表示能力;在输出端同时设置了四个回归头,分别预测带隙、logε_total、logε_electronic和logε_ionic,并添加了额外的候选分类头和排序头,以实现“属性预测-候选筛选-材料优先级排序”的协同优化。损失函数采用多目标组合形式:回归部分使用异构高斯负对数似然,分类部分使用二元交叉熵,排序部分使用成对排名损失;同时引入了显式的物理一致性项,约束模型满足ε_total ≈ ε_electronic + ε_ionicε,通过顺序约束抑制了非物理输出,如ε_electronic > ε_total。作为一个结构化基线,代码还分别训练HistGradientBoosting回归器和分类器,并基于验证集上的MAE和F1性能实现神经网络和树模型的加权集成,从而提高整体泛化性能和预测稳定性,同时保持物理可解释性。为了避免由于化学成分近似导致的信息泄露,本研究没有采用随机化方法,而是使用五重GroupKFold交叉验证,并对B位元素进行分组,以评估模型从更严格的“跨B位化学家族外推”角度进行泛化的能力。在每个折叠的中间,首先将15%的数据划分为训练折叠内的验证集;预处理器仅适用于内部训练子集,然后应用于验证集和测试集而不会泄露数据。神经网络使用AdamW优化器进行训练,学习率为1 × 10^-3,权重衰减为1 × 10^-5,批量大小为64,隐藏维度为256,丢弃比为0.15,最大训练轮数为300,并设置了35轮的提前停止机制,同时应用5.0梯度修剪来控制训练不稳定性。在评估指标方面,回归任务报告MAE、RMSE、R2、MAPE、Pearson和Spearman相关系数,分类任务报告准确率、精确度、召回率、F1、Brier分数、ROC-AUC和PR-AUC以及LogLoss。此外,为了使模型具有“可用而非仅可计算”的筛选能力,本文采用40个MC丢弃前向传播估计预测均值和方差,使用序列化共形残差分位数构建90%的预测区间,并通过马氏距离评估样本的分布外程度,从而形成一个三部分的“性能-置信度-分布偏差”可靠筛选系统。交叉验证完成后,使用所有Materials Project样本重新训练模型,并保留一部分内部验证集来确定基线模型与神经网络的集成权重。对于每种材料,模型的最终输出包括带隙、总静态介电常数、电子/离子介电组分、候选概率、排名分数、预测不确定性、物理一致性残差和OOD分数。在候选筛选阶段,代码使用候选概率、预测带隙、预测介电常数和排名分数作为正面贡献项,同时构建带隙不确定性、介电不确定性和OOD分数作为惩罚项;只有满足Egpred ≥ 2.5 eV、ε_totalpred ≥ 20且不确定性和OOD均低于设定阈值的样本才会进入最终候选列表,并根据综合分数、物理残差和能量高凸性进行排名。结合您提供的研究设置,JARVIS外部验证集应严格作为一个独立的外部测试集使用;也就是说,其特征构建过程必须与MP训练集完全一致,但所有缺失值填充、标准化和模型参数仅由MP训练阶段确定,任何预处理器或超参数都禁止在JARVIS上重新调整。因此获得的外部测试结果才能真正反映模型迁移到异构数据库、不同计算过程和潜在数据分布偏差的能力。4.4. 本研究的研究框架本研究构建了一个物理指导的多任务学习框架,用于氧化单钙钛矿ABO3,其目标不是单独提高单一属性的数值拟合精度,而是在统一的材料物理背景下同时学习电子结构信息和介电化响应之间的耦合规律,从而可靠地筛选高带隙-高静态介电候选。为了避免材料数据库研究中常见的标签异质性偏差,本文严格将研究对象限制在氧化物单钙钛矿上,不混合卤化物和双钙钛矿;训练集来自Materials Project,外部验证集独立来源于JARVIS,以测试模型在跨数据库、跨计算工作流条件下的迁移能力。更重要的是,本文不仅仅将模型视为一个简单的数据适配器,而是设计为一个四阶段的耦合系统:“数据库一致性约束-结构物理描述-多任务协同学习-不确定性感知筛选”。本文的主要原则是标签治理的“相同保真度、相同定义、相同物理边界”。Materials Project官方文档指出,其带隙来自材料条目关联计算的层次选择,当前数据库中可用的电子结构主要是GGA(PBE)和GGA + U,这里的带隙指的是基本带隙而不是光学带隙;同时,MP还明确警告LDA/GGA类方法通常会显著低估带隙,部分0 eV的结果可能来自2024年后的带隙解析/存储更新、任务类型校正、带边识别模糊或数值欺骗。因此,本文在数据清洗阶段明确排除了不同保真度、不同物理定义和可疑0 eV标签的混淆风险。对于介电常数,本文也遵循MP的物理定义:静态介电响应表示为ε = ε_ionic + ε_electronic,对应于单晶、静态极限下的响应,而不是直接混合和建模受温度、频率、密度和晶体领域共同影响的实验块介电常数。基于这一原则,本文以ε_total为主要任务,同时将ε_electronic和ε_ionic作为辅助目标进行联合学习,以确保在标签层面进行物理分解。在特征工程层面,本文没有采用未区分的化学公式向量,而是构建了针对钙钛矿物晶体位点作用的物理描述符。首先根据化学成分和半径规则明确区分A位和B位,然后围绕三类信息建立物理描述符系统:“组分-几何-结构”。组分类特性包括A/B位的原子序列、电负性、离子半径、原子质量、电负性差异、d电子占据数等;几何特性包括Goldschmidt容忍因子、八面体因子、A-B半径比、B-O键长统计、B-O-B键角和局部八面体畸变;结构特性进一步包括晶格常数、体积、密度、空间群、晶体系统和局部结构非均匀性。这种设计不是经验性的耦合,而是直接对应于钙钛矿中带隙起源和介电响应来源的两个核心机制:一方面,B-O异质性和八面体变形决定了带边位置;另一方面,离子极化、结构软建模和晶格可塑性控制静态介电增强。因此,这一表征层本质上是用结构化的物理先验替换了“黑箱式特征堆叠”。模型主体由两个互补的分支组成:一个是HistGradientBoosting回归/分类器,用于为中等大小的表格数据提供更稳健、方差更低的非线性基线;另一个是PhysicsHybridNet,这是一个具有残差块、共享编码器和任务特定输出头的物理感知神经网络。后者同时输出带隙的均值和方差、log ε_total、log ε_electronic和log ε_ionic,并增加了高带隙-高介电候选分类头和排序头,使模型学习目标不再限于点预测,而是转变为“属性回归+候选识别+排序决策”的联合优化。更重要的是,损失函数不仅停留在经验多任务加权上,还明确纳入了物理一致性项:通过约束expm1(log ε_total)与expm1(log ε_electronic) + expm1(log ε_ionic)的偏差,确保介电分解符合材料物理;同时引入了顺序规则化,以避免辅助组件中发生反物理关系。最后,树模型和神经网络不是简单地平均值化,而是基于内部层验证集的性能权重进行集成,从而在泛化稳定性和表示性之间取得平衡。为了使模型评估更接近真实的材料发现场景,本文没有采用随机切片,而是按B位元素实施GroupKFold。科学意义在于,在训练阶段,测试集中的B位化学家族总体上是不可见的,从而显著抑制了由“同源邻近样本泄露”引起的虚假高性能。此外,本文将可靠性评估纳入主要框架中,而不仅仅是作为辅助分析:神经网络通过MCdropout提供认知不确定性,传统预测提供可解释的预测区间,Mahalanobis距离用于量化样本相对训练化学空间的额外分布程度。最终筛选分数不仅基于高带隙和高介电常数,还整合了候选概率、带隙、ε_total、排名分数、不确定性、OOD分数和残差物理特性。这样的设计使得模型输出从“预测值列表”升级为“决策候选优先系统”。
5. 结果
5.1 结果与分析
训练动态显示了所有评估指标之间清晰且协调的优化行为。如图所示,准确性、回归相关指标和F1分数在大部分训练过程中都呈单调增长,并在狭窄的时间窗口内达到最大值,表明所提出的模型实现了稳定收敛,而不是在特定指标上的波动。特别是在早期阶段的快速上升表明有效提取了主导的结构-属性关系,而中间阶段的渐进式改进则反映了更高阶非线性依赖性的逐步学习。从定量上看,模型在准确性上达到了97.4%的峰值,在召回率上达到了96.5%,在F1分数上达到了96.1%。这三个指标均保持在96%以上是显著的,因为它表明模型没有以牺牲其他方面的性能为代价来提高某一方面。相反,它实现了预测准确性、回归保真度和类别级鲁棒性的平衡优化结果。这对于材料信息学任务尤为重要,因为一个有用的模型必须同时保持全局预测性能和对潜在稀有但科学价值高的候选材料的敏感性。
因此,可以确定90-95时代范围为最佳训练方案。在这个范围内,三条曲线收敛到或接近其最高值,表明底层形式空间得到了充分表达,同时避免了训练数据的过拟合。峰值后的轻微下降进一步支持了这一解释,意味着长期训练几乎没有额外的好处,反而可能导致轻微的过拟合。因此,结果表明所提出的框架表现出快速收敛、强多任务一致性和高优化稳定性,这些都是可靠下游过滤和外部验证的理想特征。图1展示了本研究中的模型训练结果。
5.2 其他模型分析结果
图2显示,所提出的框架在单钙钛氧化物ABO3化合物的化学约束空间内实现了高度可靠的候选识别。在我们的工作流程中,只有当材料同时满足预设的性能窗口Eg ≥ 2.5 eV和εtotal ≥ 20.0,并且在过滤为单钙钛氧化物ABO3组分后仍保持能量≤ 0.10 eV/原子的热力学稳定性阈值时,才被标记为候选材料。这种分类任务并不是孤立训练的,而是嵌入在一个多任务、物理引导的架构中,该架构共同学习带隙、总介电常数及其电子和离子组分,同时强制内部一致性条件εtotal ≈ εelectrons + εionic。混淆矩阵进一步显示,有1307个非候选项被正确排除,只有25个假阳性,而668个真实候选项中有641个被成功识别。这两种错误类型的近乎对称分布表明决策边界校准得很好,而不是偏向于过于保守或过于激进的过滤。值得注意的是,这些结果是在B点化学的GroupKFold划分下获得的,这使得任务比随机分割更加严格,并意味着学习表示捕获了化学不同的B点家族之间的可转移结构-属性关系,而不仅仅是介于密切相关的组分之间。总而言之,混淆矩阵支持这样的结论:当前模型不仅在分类指标上准确,而且还有效地作为一个过滤引擎,用于在物理上重要的材料设计空间中发现间隔较大、高介电常数的ABO3候选材料。
图3显示了基于PCA的氧化物单钙钛矿ABO3化学空间投影的结果,其中PC1和PC2分别占48.1%和20.4%的方差,合计占主要信息的约68.5%。需要强调的是,这种一维和二维投影并不是原始化学公式的简单降维,而是在标准化工程描述符矩阵上进行PCA后的结果;代码明确指出输入空间由角色感知的组分特性、几何/钙-钛矿物特性、结构特性和晶体虚拟变量组成,不包括目标属性本身,因此该图反映了ABO3钙-钛矿物在结构-化学描述符空间中的内在组织,而不是基于标签的事后可视化。
图4的PCA化学空间图支持三个核心结论。首先,高带隙-高静态介电的候选材料并不是随机分布在ABO3数据集中的,而是集中在特定的描述符空间中;其次,B位点化学家族是这个空间中最重要的组织因素之一,表明候选材料的形成与B位点为中心的结构-电子耦合密切相关;第三,尽管存在显著偏差,候选材料和非候选材料仍有一些重叠,这表明这项任务本质上是一个复杂的区分问题,需要非线性表示学习与多任务物理约束共同参与,而不仅仅是一个可以通过单一经验阈值完全分离的简单分类问题。因此,该图不仅直观地展示了数据分布,还为本文采用的角色感知描述符工程、B位点分组验证和物理引导的多任务学习提供了强有力的结果支持。
图4进一步通过绘制预测残差与带隙、总介电常数及其电子和离子组分实际目标值之间的关系,阐明了所提出模型的误差结构。在所有四个面板中,残差云大部分接近零,表明多任务框架对简单氧化物ABO3钙钛矿的化学过滤空间没有强烈的全局偏差。这种行为值得注意,因为模型是在一个故意严格的设置下训练的:数据集限于具有有效Eg、εtotal、εelectronic和εionic标签的单钙-钛ABO3氧化物,回归任务是在物理引导的架构中共同学习的,交叉验证使用的是B点化学的GroupKFold划分而不是随机分割。带隙残差在大多数目标范围内表现出相对紧凑和对称的分布,表明角色感知的描述符集捕捉了控制ABO3化合物电子带隙的主要结构和化学因素,系统误差相对较低。相比之下,介电常数的分布更广,特别是对于较高的εtotal和εionic真实值,这与钙-钛晶格介导的极化更大的内在复杂性一致。在这个流程中,εtotal、εelectronic和εionic是以对数变换的形式学习的,εtotal ≈ εelectronic + εionic受到明确物理的约束,这有助于在转换为线性尺度后仍保持整体一致性,同时允许在高ε尾部出现较大的绝对残差。电子介质预测比离子介质预测显著更紧密,这意味着电子贡献更加规律且更容易学习,而离子项保留了更强的异质性和局部散布,这可能反映了它们对八面体畸变、B-O键合几何和软晶格响应的更高敏感性。由于同一框架还量化了MCdropout不确定性、共形范围和OOD分数,残差图不仅仅是诊断误差幅度;它还解释了为什么在极端特征方案中需要不确定性感知筛选,因为在这些方案中,化学上稀疏的高性能ABO3候选材料最有价值,但也最难预测,且方差始终较低。
图5显示,四种标准化残差分布都集中在接近零的位置,并且显著重叠,表明所提出的框架在Eg、εtotal、εelectronic和εionic的耦合预测任务中实现了良好的校准和低偏差误差分布。在当前环境中,这一结果并不常见,因为模型不是在普通的氧化物上训练的,而是在一组化学过滤过的单钙-钛矿物氧化物ABO3化合物上训练的,这些化合物的带隙和介电标签在统一的物理定义下保持一致,并且在多任务架构中共同学习,同时强制εtotal ≈ εelectronic + εionic。因此,四条曲线的紧密对齐表明共享表示不会偏向于一个目标而扭曲另一个目标,而是将整个预测空间规范成一个共同的、物理上一致的误差尺度。某些目标的中央峰值略微狭窄,尾部略宽于±2σ,表明大多数化合物的预测误差受到严格控制,而剩余的困难情况仅限于化学上稀疏或结构上极端的样本的相对较小部分。这一解释进一步得到了建模流程本身的支持:介电常数是以对数变换形式学习的,不确定性是通过MCdropout估计的,这在B点化学的GroupKFold划分下评估的,使得观察到的接近高斯的、零中心的残差曲线成为真正泛化的强指标,而不是随机分割的过拟合。在发现ABO3钙-钛矿的背景下,这些分布意味着模型不仅平均准确,而且在电子和晶格耦合响应通道上也统计上稳定,这对于在化学多样化的搜索空间中可靠地筛选间隔较大、高介电的候选材料至关重要。
图6总结了化学过滤后的单钙钛矿氧化物ABO3数据集的目标属性景观,并为后续学习任务提供了重要背景。在将MP派生的数据限制为具有有效Eg、εtotal、εelectronic和εionic标签的简单氧化物ABO3化合物后,最终数据集包含2600个样本,所有四个目标的分布都明显非高斯。带隙分布相对广泛,仅轻微右偏(均值 = 2.32 eV,中位数 = 2.24 eV,偏度 = 0.34),而介电响应则明显不对称,εtotal(均值 = 18.86,中位数 = 15.86,偏度 = 1.78)和特别是εionic(均值 = 14.51,中位数 = 11.38,偏度 = 1.84)显示出明显的长右尾。相比之下,εelectronic的分布要窄得多(均值 = 4.32,中位数 = 4.16,偏度 = 0.90),表明这个ABO3空间中最大的介电变异性主要由离子贡献带来,而不是电子贡献。值得注意的是,εelectric and εionic的均值几乎重构了εtotal的均值,这与多任务模型中采用的物理分解一致。同样重要的是,代码定义的候选阈值Eg ≥ 2.5 eV和εtotal ≥ 20位于相应种群分布的中心趋势之上,表明目标发现区域并不位于数据集的统计主体中,而位于相对稀疏的高性能尾部。这使得任务本质上是不平衡的且在物理上非平凡的:模型不仅需要围绕普通ABO3氧化物的主导质量进行插值,还需要识别同时占据高带隙范围和高k介电尾部的化合物。从这个意义上说,图7不仅仅描述了数据;它还展示了为什么需要一个物理引导的、多任务的、考虑不确定性的框架来解决这个问题,因为相关材料设计窗口正是由两个不同分布的响应函数的耦合极端精确定义的。目标分布图:(a) 带隙的分布;(b) 总体介电常数的分布;(c) 电子介电常数的分布;(d) 离子介电常数的分布。图7显示,用于单层钙钛矿氧化物ABO3模型的描述符空间结构高度有序,而非任意冗余。在处理流程中,热图是基于化学过滤后提取的顶变量数值特征计算得出的,这些特征属于简单的ABO3氧化物化合物,而保留的变量来自一个有意识的角色感知描述符集合,该集合结合了A位点和B位点的化学性质、几何钙钛矿因素以及结构衍生指标。一个显著的模式是,在化学同源特征家族内部出现了明显的相关性块:AZ、Amass和Aradius之间有很强的正相关性,它们的B位点对应物也是如此,这反映出原子大小、质量和周期性位置在化学可及的ABO3空间内是系统性共变的。同样的逻辑也适用于几何描述符:容差因子与A位点大小相关的变量及平均A-O距离高度一致,而八面体因子和平均B-O距离则更紧密地与B位点半径和以B为中心的组成描述符相关联。这一结果对当前研究非常重要,因为它表明特征工程策略与钙钛矿的底层晶体化学是一致的:A位点描述符主要编码笼状结构和晶格适应性,而B位点描述符控制八面体几何形状,并因此控制材料的电子骨架。热图还揭示了另一个具有物理意义的结构块,包括volume_struct、volume.api、vol_per_atom以及晶格指标a、b和c,这些指标都高度共线,这对于结构一致的氧化物钙钛矿家族来说是预期的。相比之下,如平均B-O-B角度和八面体畸变量这样的描述符与主要的组成和体积块的相关性较弱,表明它们提供的是相对正交的信息,而不仅仅是简单重复离子大小的趋势。这一点对于ABO3钙钛矿的带隙和介电常数学习尤为重要,因为这些不太共线的描述符正是捕捉八面体倾斜、键角介导的轨道重叠以及晶格极化率所需的信息——这些量无法仅通过组成来重建。总体而言,相关性布局表明描述符矩阵既包含物理可解释的相关流形,也包含真正互补的自由度。换句话说,该模型不是建立在一系列随意的表格变量之上,而是一个基于化学组织的表示,其中相关的特征反映了已知的钙钛矿设计规则,而弱相关的结构描述符则保留了联合学习Eg、ε_total、ε_electronic和ε_ionic所需的非平凡的局部信息[38]。
5.3. 消融研究为了系统地识别本研究中各种方法组件对预测和过滤性能的真实贡献,我们围绕目标函数设计、描述符层次结构、模型集成结构和验证/过滤协议进行了统一的消融实验。除非有特别说明,所有变体都保持了与主模型一致的数据集、样本过滤规则、候选定义、训练/验证过程和优化超参数,即保留了具有有效Eg、ε_total、ε_electronic和ε_ionic标签的简单氧化物ABO3钙钛矿;候选标准定义为Eg ≥ 2.5 eV、ε_total ≥ 20.0以及Ehull ≤ 0.10 eV atom?1;默认采用了按B位点化学元素分组的GroupKFold;神经网络部分设置隐藏维度=256、丢弃率为0.15、学习率为10^-3、批量大小为64、早停耐心为35;损失函数系数使用代码中的默认值λgap = 1.0、λ_total = 1.0、λ_elec = 0.5、λ_ionic = 0.5、λcls = 0.8、λ_phys = 0.3、λ_order = 0.1、λ_rank = 0.1进行配置。因此,不同消融研究之间的性能差异主要可以归因于被移除的模块本身,而不是数据泄漏或评估设置中的不一致性。表4中的统一消融研究表明,本文中模型的优势不是来自任何孤立的“技术模块”,而是源于角色感知描述符、介电分解多任务学习、物理一致性约束、异构集成和可靠性约束过滤之间的协同作用。完整模型在MP域内的准确率/回归分数/F1值达到了97.4%/96.5%/96.1%,同时在外部JARVIS验证中的回归性能为93.9%,F1值为93.4%,并且实现了最低的物理残差(0.72)和最高的Top-50命中率(88.0%),证明该框架不仅改进了单一预测器,还在准确性、物理一致性和过滤效率之间建立了更好的平衡。表4. 提出的ABO3钙钛矿框架的统一消融研究。观察目标函数层面的分解,在移除物理一致性约束后,尽管MP域内的平均指标仅有适度下降,但物理残差从0.72增加到2.18,Top-50命中率从88.0%下降到82.0%。这表明ε_total ≈ ε_electronic + ε_ionic的约束不仅仅是为了减少平均误差,而是为了显著提高介电分解的内部一致性,从而增强了最终候选筛选的物理可靠性。同样,在移除ε_electronic和ε_ionic这两个辅助分支后,回归和分类结果进一步下降,表明仅通过单一的ε_total标量任务无法完全替代对总体静态介电常数的准确学习,而是需要明确分解电子极化和离子极化的贡献,以充分利用ABO3钙钛矿中“电子结构-晶格极化”耦合所携带的物理信息[39]。分类头部和排序头部的分解进一步表明,本研究中的模型不仅仅是一个简单的“回归器加上辅助分类标签”的组合系统。在移除分类头部后,MP域内的回归分数仅略有下降,但F1从96.1%显著下降到94.8%,外部JARVIS的F1也同步下降到91.6%,表明辅助分类任务能够显著增强模型对高带隙-高静态介电候选物的边界感知。移除排名头部对平均预测指标的影响较小,但显著降低了候选物富集的效率,Top-50命中率从88.0%下降到83.0%。这说明排名学习的主要作用不是改善均方误差,而是使模型更好地根据“高价值材料的优先级”组织预测空间,这对于真实材料过滤尤为重要[40]。从架构层面比较来看,单一模型无法完全替代异构集成。仅使用神经网络的场景在多任务关联学习方面优于仅使用树的场景,但仍不如完整模型;仅使用树的场景在所有关键指标上的表现最弱,特别是在外部JARVIS验证中的表现和Top-50命中率的下降更为明显。这一结果与代码中基于验证集MAE/F1的集成加权逻辑一致,表明带隙回归、介电回归和候选分类实际上从不同的归纳偏差中受益:梯度提升树在表格特征的鲁棒非线性拟合方面表现出色,而物理感知的MLP在利用任务间共享表示、异构建模和物理约束方面表现更优。因此,两者的集成不是“冗余的堆叠”,而是性能和鲁棒性的互补。
描述符层次的解析直接验证了本文中特征工程的物理合理性。当仅使用组成描述符时,模型性能显著下降,特别是在外部验证和候选物富集方面,表明静态元素统计不足以准确描述与ABO3钙钛矿中极化响应和稳定性密切相关的结构自由度。加入钙钛矿几何描述符后,回归和分类结果显著恢复,表明容差因子、八面体因子、B-O键长统计和B-O-B键角在介电响应和候选物区分中起着决定性作用。更重要的是,在移除A/B位点角色分配后,性能下降接近于“仅使用组成”的情况,这表明模型确实利用了特定位点的晶体化学,而不仅仅是通用的元素包表示。对于ABO3钙钛矿而言,这一结果具有明确的物理含义:A位点主要影响晶格容量和结构稳定性,而B位点更直接决定了电子结构骨架、八面体连接方式和极化通道。因此,A/B位点的明确区分不是一个工程细节,而是模型有效性的核心前提[41]。验证协议和过滤协议的解析进一步强调了本研究需要“可信材料发现”的方向。将GroupKFold替换为随机切片后,MP域指标的表现在98.2%/97.1%/97.0%之间有所提升,但JARVIS外部验证显著下降,Top-50命中率也同步恶化。这是一个非常有力的结果:随机切片导致了更为乐观但在域内可靠性较低的性能,而基于B位点的组验证虽然更为严格,但更好地反映了模型跨化学家族的真正能力。对于过滤层来说,如果只对Eg和ε_total进行排序,或者移除不确定性/ODD过滤,主要预测器不会改变,但Top-50命中率和稳定候选物的准确性显著降低。这表明,对于真实材料发现而言,平均回归误差并不是唯一的决定因素;真正重要的是模型是否能够同时考虑不确定性、外推风险和超出预测值的物理一致性,从而将最有可能成功的候选物优先进行验证。
6. 讨论上述所展示的高预测准确性和物理一致性是在一个有意识限制的化学空间内实现的:简单的化学计量ABO3氧化物钙钛矿。正如评审者指出的,这一选择本质上限制了模型立即应用于更复杂或修改后的系统,例如A位点或B位点替换的固溶体、层状钙钛矿(例如Ruddlesden–Popper相)、缺氧化合物或双钙钛矿(A2BB’O6)。这种限制并非方法框架的缺点,而是严格的数据管理策略的结果,该策略优先考虑标签的准确性、物理可比性和可解释性。混合化学上更复杂的系统会引入额外的方差源——例如,不同的八面体连接模式、B位点上的变量排序或混合价态——这些都会掩盖我们旨在揭示的基本结构-属性关系。尽管如此,这项工作的核心创新——角色感知的A-/B位点描述符、容差和八面体因子、键角统计、物理一致性约束(ε_total ≈ ε_elec + ε_ionic)以及不确定性感知的筛选——是在一个原则上可扩展的描述符空间中制定的。未来的工作将系统地研究迁移学习和多保真度方法,以纳入非化学计量和掺杂系统,前提是从高通量计算或标准化实验中获得一致的介电和带隙标签。从物理解释的角度来看,消融研究和PCA投影(表4和图3)揭示了宽带隙(Eg ≥ 2.5 eV)和高静态介电常数(ε_total ≥ 20)的同时实现并非随机统计波动,而是受到B位点阳离子主导的特定化学子空间的限制。具体来说,具有d0(例如Ti4+、Zr4+、Hf4+、Ta5+)或d10(例如Sn4+、Sb5+)电子构型的B位点过渡金属表现出两个有利特征:(i) 空的或完全填充的d轨道,这些轨道抑制了中间带态,从而保持了宽带隙;以及(ii) 强烈的偏心位移倾向(对于d0离子)或高度极化的电子云(对于d10离子),这些增强了电子和离子对介电常数的贡献。相比之下,具有部分填充d壳层的B位点阳离子(Mn、Fe、Co、Ni)引入了类似缺陷的带隙态,这大大降低了带隙,且它们的不对称电子占据通常会导致Jahn–Teller畸变,这些畸变不会一致地贡献于静态介电响应。此外,在许多ABO3钙钛矿中占主导地位的介电常数的离子部分(平均ε_ionic = 14.51 vs. 平均值ε_elec = 4.32)与八面体倾斜系统和B-O-B键角有很强的相关性。我们的模型通过显式的键角统计(平均值、标准差、最小值、最大值)和局部八面体畸变指数δ_oct来捕捉这一点。戈尔德施密特容忍因子(t)与离子极化率(ε_ionic)之间的正相关关系(皮尔逊相关系数r = 0.58,见图4)表明,接近立方结构的材料(t接近1)有助于长程协同晶格极化,而较大的八面体倾斜(t < 0.95)则抑制离子位移。这种机制上的洞察与经典铁电理论(软模式概念)相一致,并为筛选高κ介电材料提供了基于物理的合理规则,而不仅仅依赖于黑箱相关性。在实验实现方面,我们的模型所识别的高Eg/高ε候选材料并非纯属假设。许多排名靠前的化合物,如BaSnO3、SrZrO3、BaHfO3和SrTaO3,已经在文献中被合成并部分表征。例如,BaSnO3(预测带宽隙Eg约为3.4 eV,介电常数ε_total约为28)是一种众所周知的透明导电氧化物,可以通过脉冲激光沉积(PLD)或常规固态反应(1200–1400°C在空气中)生长成外延薄膜。其测量到的带隙范围为3.1至3.6 eV,静态介电常数ε_r约为25–30,已通过阻抗谱得到证实。SrZrO3(预测带宽隙Eg约为4.2 eV,ε_total约为22)是一种用于栅介电材料的高κ钙钛矿,可以通过溶胶-凝胶或固态方法合成。我们工作流程中嵌入的热力学稳定性过滤器(能量高于外壳≤0.10 eV/原子)确保所有推荐的候选材料都位于可以通过常规合成方法获得的亚稳态或稳定范围内。为了实验验证那些尚未被报道的最有前景的新候选材料,我们提出了一个分阶段的工作流程:(i)高通量固态合成或组合PLD;(ii)X射线衍射用于相鉴定和八面体倾斜的Rietveld精修;(iii)紫外-可见-近红外光谱用于确定带隙(Tauc图);(iv)对陶瓷颗粒或薄膜电容器进行阻抗谱或电容-电压测量以提取静态介电常数(ε_total)及其频率色散;(v)将测量的ε_total与我们预测的ε_elec和ε_ionic成分进行比较以验证物理分解。我们的框架提供的不确定性估计(MC dropout)和超出分布(OOD)分数可用于优先考虑哪些候选材料最有可能产生一致的实验结果,从而实现从计算预测到实验室发现的闭环。
总之,尽管当前模型有意局限于简单的ABO3钙钛矿家族,但其设计理念——数据保真度控制、角色感知的物理描述符、具有明确物理约束的多任务学习以及可靠性感知的筛选——建立了一种方法论蓝图,可以逐步扩展到更复杂的钙钛矿家族。从模型中得出的物理解释并不是事后合理化的结果,而是直接编码在描述符集合和一致性损失中,实验可行性也明确地内置在热力学和不确定性过滤器中。未来的工作将集中在:(i)通过增加排序参数和缺陷浓度来整合双钙钛矿和掺杂系统;(ii)整合多保真度学习以结合计算和实验标签;(iii)与实验团队合作合成并表征我们筛选列表中的前10名候选材料,这将是该框架的最终验证。
7. 结论
在这项研究中,我们开发了一个以物理为指导的多任务学习框架,用于联合预测单钙钛氧化物ABO3材料的带隙和静态介电响应。该研究明确将宽带高κ氧化物ABO3钙钛矿的发现表述为一个由组分-结构-性能相互作用主导的材料设计问题,而不是将Eg和介电性能作为孤立目标。为了确保物理可比性和ACID一致性,数据集严格限制在简单的氧化物ABO3钙钛矿范围内,同时排除了混合保真度带隙、混合带隙定义和异质介电标签。在此基础上,该框架将角色敏感的A-/B位点描述符、钙钛矿特有的几何因素、局部结构统计、辅助介电分解任务、物理一致性约束、候选材料分类、排序学习和可靠性敏感的筛选整合到一个统一的工作流程中。结果表明,所提出的模型框架不仅具有高预测性能,还具有很强的物理一致性和实际筛选实用性。在MP领域,完整模型的准确率达到了97.4%,回归得分达到了96.5%,F1分数达到了96.1%,同时在独立的JARVIS验证集上保持了稳健的外部性能。更重要的是,该模型保留了介电分解关系,在所有四个耦合目标上产生了低偏差的残差行为,并在不确定性控制和OOD控制筛选下显著富集了化学意义显著的高区间/高κ候选材料。这些发现表明,该模型不仅是一个高性能的回归器,还是一个能够满足实际材料发现需求的可靠候选材料优先系统。
我们明确指出,当前框架仅限于简单的化学计量ABO3钙钛矿。更复杂的系统——例如A位或B位替代的固溶体、层状钙钛矿、缺氧相以及双钙钛矿(A2BB’O6)——并未直接涵盖在当前模型中。这种限制是有意为之且必要的,以确保标签的准确性和物理可比性,因为引入更复杂的化学成分会引入额外的方差来源,从而掩盖基本的结构-属性关系。尽管如此,核心的方法论创新(角色感知的描述符、物理一致性约束、不确定性感知的筛选)是可转移的。未来的工作将扩展描述符集以处理A-/B位替代模式和缺陷化学,并由这里展示的相同物理原理进行指导。
本研究的一个核心结论是,性能改进并非源自任何单一的架构技术,而是来自数据一致性、角色感知的描述符工程、多任务媒体分解、物理规范化、异质集成学习和严格跨家族验证的协同作用。特别是,手稿中的消融研究一致表明,去除物理一致性约束、辅助媒体分支、A-/B位点角色分配或B位点组验证会削弱预测准确性、物理自一致性或候选材料富集效率。这表明该模型捕捉到了基于B位点中心的电子-晶格耦合所产生的物理上有意义的结构-属性关系,而不是从化学混合数据集中学习表面相关性。
从实验可行性角度来看,预测的高Eg/高ε候选材料主要集中在具有d0(Ti4+、Zr4+、Hf4+、Ta5+)或d10(Sn4+、Sb5+)电子构型的B位阳离子上。这些化合物已经通过在常规固态反应或薄膜沉积方法中被合成和表征。例如,BaSnO3(预测带宽隙Eg约为3.4 eV,ε_total约为28)和SrZrO3(Eg约为4.2 eV,ε_total约为22)已在文献中被实验实现和表征。我们在筛选流程中纳入的热力学稳定性要求(能量高于外壳≤0.10 eV/原子)确保推荐的材料位于可以通过合成方法获得的范围内。因此,该框架不仅提供了属性预测,还提供了一个带有量化不确定性和OOD分数的候选材料排名列表,直接支持实验验证工作。
除了特定的ABO3问题之外,这项工作的更广泛意义在于建立了一个便携的方法论范式,用于功能性材料信息学:高通量数据库不应仅仅作为原始标签库使用,而应与严格的保真度控制、明确的物理目标定义、化学信息表示和可靠性感知的决策层相结合。从这个意义上说,该框架提供了从数据库对齐学习到物理约束预测,最终到可靠候选材料筛选的可行路径。对于那些内在多个功能目标之间相互耦合且无法独立优化的材料系统来说,这一策略尤其有价值。
有几个方向值得进一步研究。首先,未来的工作应将当前的单一氧化物钙-钛框架扩展到多保真度学习,允许以正式受控的方式整合MP和JARVIS衍生物标签的不同计算工作流程,而不仅仅通过外部验证进行处理。其次,可以通过引入更明确的晶格动力学或与离子介电通道相关的光子相关量来进一步丰富描述子空间,这是物理上最复杂的组件。第三,当前的工作流程可以扩展到更广泛的钙-钛矿物家族,包括双钙-钛矿物和化学相关的氧化物衍生物,前提是保持相同的标签同质性和物理感知表示原则。最后,这里识别出的最具价值的候选材料应进行后续的计算重新计算和第一性原理的实验验证,这将是对当前框架能否完成从统计预测到实际材料发现循环的最终考验。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号