基于物理原理的XGBoost算法在小型数据集上对高熵碳化物进行筛选
《Materials Today Communications》:Physics-Guided XGBoost for Small-Data Screening of High-Entropy Carbides
【字体:
大
中
小
】
时间:2026年04月28日
来源:Materials Today Communications? 3.7
编辑推荐:
双宇庞|艾哈迈德·苏弗里尔·阿兹兰·穆罕默德
马来西亚科学大学计算机科学学院
**摘要**
高熵碳化物(HECs)在极端温度应用中具有吸引力,但用于表征其形成熵能力的密度泛函理论指标(EFA)相对较少,这使得基于数据的筛选容易出现过拟合问题。本研究评估了一种基于物理
双宇庞|艾哈迈德·苏弗里尔·阿兹兰·穆罕默德
马来西亚科学大学计算机科学学院
**摘要**
高熵碳化物(HECs)在极端温度应用中具有吸引力,但用于表征其形成熵能力的密度泛函理论指标(EFA)相对较少,这使得基于数据的筛选容易出现过拟合问题。本研究评估了一种基于物理原理的XGBoost工作流程,用于对等原子五阳离子岩盐HECs的小数据EFA筛选。每种成分由108个 compositional descriptors 和8个(如有的话)CALPHAD推导出的热力学特征来描述。为了编码先验知识,我们施加了两个符号约束:预测的EFA应随I.C.A.均值减小,随液相线温度增大。在56个带有标签的成分上,仅使用化学描述符的重复5×5交叉验证结果是平均R2 = 0.428 ± 0.033和MAE = 9.56 ± 0.20;而添加CALPHAD描述符后的结果为R2 = 0.424 ± 0.040和MAE = 9.24 ± 0.29。因此,CALPHAD描述符使MAE降低了0.32个EFA单位;对重复级别MAE进行的预指定单侧Wilcoxon检验得出的p值为0.031(双侧p值为0.063)。单调性消除对内部交叉验证误差影响很小,但在化学外推下略微降低了平均留一元素法MAE(化学描述符组为13.54,Chem+CALPHAD组为13.76;13.81),同时保证了物理上一致的趋势。进一步的调优表明,在这个描述符丰富的小数据集上,Ridge回归和SVR的5折MAE结果优于XGBoost。因此,XGBoost的实际价值在于受限排名、非线性趋势检测和基于不确定性的筛选,而不仅仅是最低点误差的减少。因此,对70种含铬候选物的应用仅作为在领域转换下的探索性排名。这些结果将基于物理原理的XGBoost定位为在极端数据稀缺情况下的一种保守筛选工具,而不是替代更广泛的跨化学验证方法。
**1. 引言**
高熵碳化物(HECs)作为高熵陶瓷的一个显著子类出现,因为它们结合了过渡金属碳化物的耐火性和多主元素设计的化学灵活性。它们的吸引力在于能够在远超传统二元和三元碳化物的组成空间中同时实现高硬度、高熔点、抗氧化性和化学稳定性[1],[2],[3]。同时,这种组合丰富性使得即使是对于等原子五阳离子系统,传统的试错探索也变得效率低下。
筛选岩盐HECs的一个核心指标是形成熵的能力(EFA),它衡量了从无序组成生成的代表性有序配置的能量分散程度。较大的EFA意味着无序状态的能量惩罚较小,实际上更有可能形成单相固溶体[3],[4]。然而,计算EFA所需的AFLOW-POCC/DFT工作流程仍然相当昂贵,无法作为全设计空间的第一线筛选工具。这一挑战促使人们基于组成和热力学描述符开发了机器学习替代方法[4],[5],[6],[7],[8]。最近针对HECs的最新研究进一步强调了无序焓熵描述符、物理上可解释的大小不匹配指标、低成本描述符集、非等摩尔性质预测以及不平衡感知的相分类,显示出向数据高效碳化物信息学发展的明确趋势[9],[10],[11],[12],[13]。
更广泛地说,最近在材料科学和相关高维预测问题上的研究强调了在数据有限时,基于物理原理、可解释或定制的机器学习策略的价值。典型例子包括物理冶金指导的合金设计[14]、马氏体转变控制的韧性优化[15]、协调的物理/深度学习用于性质预测[16]、有限数据的故障诊断[17],以及用于复杂诊断任务的弱监督Transformer建模[18]。其他研究同样展示了定制的小数据机器学习在化合物发现[19]、碳基复合材料的层次微观结构设计[20]、增材制造中的可解释过程预测[21]、BCC高熵合金的机器学习辅助设计[22]以及其他数据稀缺预测任务中的粗略到精细特征提取[23]中的应用。尽管这些例子中的某些并不特定于HECs,但它们强化了一个共同的方法论主题:当标签数据稀缺时,归纳偏差、可解释性和领域结构通常与原始模型的灵活性同样重要。
在此背景下,这里探讨的问题比简单声称一种新算法要有针对性:当只有56种带有标签的等原子五阳离子岩盐碳化物可用时,基于物理原理的树集成是否仍能用于保守的HECs筛选?因此,这项工作的贡献并不在于发明一种新的提升方法,而在于将XGBoost有针对性地适配于小数据材料筛选环境。具体来说,我们(i)审核了可用数据集以消除伪标签泄漏,(ii)编码了两个符号一致的单调性先验,(iii)测试了CALPHAD描述符是否提供了统计上可检测的好处,(iv)与调整后的线性、核型和树型基线进行了基准测试,(v)在留一元素法化学外推下对模型进行了压力测试。图1总结了整个工作流程,其中审核过的带标签数据集用于模型拟合和重复交叉验证,而不包含铬的面板则用于探索性排名。
**2. 数据和方法**
**2.1. 数据集审核和研究范围**
本研究使用了两个不重叠的成分集。第一个是包含56种带有标签的等原子五阳离子岩盐HECs的数据集,这些HECs的EFA值是通过DFT获得的。第二个是一个包含70种成分的含铬面板,没有EFA标签,仅用于探索性外部排名。此外还审核了一个名义上未标记的56个样本的伴随文件;由于其标识符与带标签的数据集一一对应,因此将其从所有建模过程中排除,以避免任何自训练或伪标签工作流程中的泄漏。电子表格中的样本标识符编码了特定于成分的质量分数字符串,但此处分析的所有成分都是等原子五阳离子碳化物,因此所有成分均以原子比形式报告。
EFA的目标值是从先前HECs发现研究中使用的AFLOW-POCC/DFT文献中编译而来的,八个热力学描述符则来自伴随数据集的CALPHAD特征表。表1总结了本研究中使用的数据集分区,包括56种用于模型开发的带标签HECs和70种用于探索性排名的含铬外部候选物。
**2.2. 描述符空间和预处理**
每个带标签的成分由108个基于周期表统计和相关聚合的数据描述符表示,包括半径、价电子描述符和键相关汇总。当使用热力学块时,还添加了八个CALPHAD推导出的量:3500 K时的相数、1100和1400 K时的岩盐分数、1100、1700和2200 K时的石墨分数,以及液相线和固相线温度。所有温度均以开尔文为单位报告,所有相分数都是无量纲的。图2展示了56种带标签HECs的数据集级概览,包括EFA值的分布和描述符相关性。
**2.3. 基于物理原理的XGBoost模型**
主要的非线性模型是XGBoost,选择它是因为它可以直接在树集成中编码单调性约束,同时在处理表格数据时仍然高效[24]。为了保证可复现性,每个用于点预测和不确定性总结的XGBoost拟合都使用了相同的单调性约束向量,包括均值回归器和q = 0.1、0.5和0.9的分位数拟合。约束条件是I.C.A.均值 = -1和液相线温度 = +1;所有其他描述符均设置为0。这些约束在模型拟合过程中强制执行,而非通过后处理施加。这两个符号编码了以下先验:EFA应随组成加权平均离子特性(I.C.A.均值)增加而增加,随液相线温度减小而减小。这些先验并非作为普遍的物理定律强加的;相反,它们使模型趋向于化学上合理且由当前数据集支持的趋势。
物理逻辑很简单:较大的I.C.A.均值通常反映了较强的局部键合不匹配和更大的能量分散,这倾向于抑制无序容忍度并降低EFA。相比之下,较高的液相线温度反映了更强的耐火键合和更宽的热力学稳定性窗口。将这两个符号嵌入到提升器中是一种小数据 regularization策略:它在采样稀疏的区域减少了模型的自由度,因为在这些区域,未受约束的树可能会学习到非物理的逆转。图3提供了梯度提升树学习的示意图,展示了XGBoost框架中的加性残差拟合和 regularization。
**2.4. 验证协议和统计分析**
验证旨在区分类似插值的性能、统计显著性和化学外推。主要估计方法使用了重复的5×5交叉验证,结果以五次随机折叠的平均值±标准差的形式报告,并在每次重复中进行了折叠内聚合。仅使用化学描述符的MAE和CALPHAD辅助的MAE通过与成对Wilcoxon符号秩检验进行了比较;虽然预先指定了CALPHAD减少误差的方向假设,但也监测了单侧和双侧的p值。还使用了留一元素法(LOEO)协议:所有包含一个元素的成分都被保留,模型在剩余数据上训练,然后对保留的成分进行预测。LOEO比随机交叉验证提供了更严格的化学外推衡量标准。
超参数是通过五折交叉验证和MAE最小化使用紧凑网格搜索选定的。对于XGBoost,分别筛选了以n_estimators = 80–160、learning_rate = 0.03–0.08、max_depth = 2–3、min_child_weight = 1–2、subsample = 0.7–0.9、colsample_bytree = 0.7–0.9和reg_lambda = 1–2为中心的浅层树网格。基准模型在相同的五折协议下进行了调整:Ridge使用α ∈ {0.01, 0.1, 1, 10, 100};SVR使用C ∈ {1, 3, 10, 30}, ε ∈ {0.1, 0.2, 0.5}和γ ∈ {scale, 0.01, 0.03, 0.1};随机森林和extra-trees模型使用n_estimators = 200,max_depth ∈ {3, 5, None},min_samples_leaf ∈ {1, 2}和max_features ∈ {sqrt, 0.5}。选定的XGBoost操作点和单调性消除总结见表2。物理学指导的XGBoost设置、单调性消融以及重复交叉验证总结。
**设置/结果**
- 单调先验(均值和q=0.1/0.5/0.9拟合):
- I.C.A. 均值:-1;液相线温度:+1;所有其他特征不受限制(0)
- XGBoost搜索参数:
- num_estimators = 80–160;
- learning_rate = 0.03–0.08;
- max_depth = 2–3;
- min_child_weight = 1–2;
- subsample = 0.7–0.9;
- colsample_bytree = 0.7–0.9;
- reg_lambda = 1–2
**仅化学操作点:**
- num_estimators = 120;
- learning_rate = 0.05;
- max_depth = 2;
- min_child_weight = 1;
- subsample = 0.7;
- colsample_bytree = 0.7;
- reg_lambda = 2.0
**化学+CALPHAD操作点:**
- num_estimators = 120;
- learning_rate = 0.05;
- max_depth = 2;
- min_child_weight = 1;
- subsample = 0.7;
- colsample_bytree = 0.9;
- reg_lambda = 1.0
**重复5×5交叉验证:**
- 仅化学(受限):均值R2 = 0.4280 ± 0.0332;均值MAE = 9.5649 ± 0.1983
- 仅化学(不受限制):均值R2 = 0.4232 ± 0.0397;均值MAE = 9.5814 ± 0.2535
- 化学+CALPHAD(受限):均值R2 = 0.4244 ± 0.0401;均值MAE = 9.2432 ± 0.2864
- 化学+CALPHAD(不受限制):均值R2 = 0.4178 ± 0.0497;均值MAE = 9.2300 ± 0.3319
**平均LOEO MAE:**
- 仅化学(受限):13.54 vs 不受限:13.62
- 化学+CALPHAD(受限):13.76 vs 不受限:13.81
**结果与讨论**
3.1. 标记数据集的统计结构
标记集的EFA值范围从37到125,均值为61.7,标准差为17.0,中位数为59。这个范围足够支持排名分析,但绝对样本数量仍然较少,因此方差控制至关重要。图2和图4中的描述性视图清楚地表明,并非所有热力学变量都携带了最强的信号。
**下载:**下载高分辨率图像(279KB)
**下载:**下载全尺寸图像
图4. 标记集中CALPHAD派生属性与EFA之间的相关性分析。
在连续描述符中,EFA与I.C.A.均值呈强负Spearman相关性(ρ = ?0.6977,p < 0.001),与液相线温度(ρ = 0.5378,p < 0.001)和1100 K时的岩盐分数(ρ = 0.4563,p < 0.001)呈正相关。相比之下,固相线温度的相关性较弱(ρ = 0.0487,p = 0.7214),而单纯的相数变量在统计上并不显著(ρ = 0.1006,p = 0.4607)。这种区别很重要:连续的CALPHAD特征编码了单一相数类别无法保留的分级热力学信息。
表3中的分组相数分析支持了相同的结论。具有更多竞争相的组在EFA上没有显示出统计学上的显著分离(单因素ANOVA,p = 0.233),Kruskal–Wallis检验也只有边缘趋势(p = 0.099)。因此,CALPHAD在这个数据集中的价值更多地来自于相分数和热标记,这些标记追踪了岩盐目标相的稳定性和石墨竞争的开始。
3.2. CALPHAD描述符对小样本泛化的影响
添加CALPHAD描述符后,错误略有减少但方向一致。在五次重复的5折分割中,受限模型的均值MAE从9.56 ± 0.20降低到9.24 ± 0.29,而均值重复水平R2保持相似(0.428 ± 0.033 vs 0.424 ± 0.040)。在预设的单侧配对Wilcoxon检验下,MAE的降低是显著的(p = 0.031);相应的双侧p值为0.063。因此,CALPHAD作为一个有用的辅助工具,但它并不改变问题的难度级别。图5显示了仅化学和化学+CALPHAD模型的代表性帕arity和残差图。
3.3. 与代表性基线的基准测试
包括了一个调整后的基线比较,以区分模型选择和原始点精度。在这个包含56个样本、描述符丰富的数据集上,岭回归(Ridge Regression)和SVR(Support Vector Regression)实现了最低的五折MAE,特别是在化学+CALPHAD情况下(表A1)。这种行为是合理的,因为特征空间维度高且相对于样本量来说高度共线:岭回归通过系数收缩减少方差,SVR通过基于边缘的正则化控制复杂性,而即使是浅层的提升树也可能过于细致地划分稀疏的描述符区域。因此,不应将XGBoost视为这个数据集在数值上最好的回归器。
3.4. 学到趋势的物理解释
图7中的特征重要性排名和图8中的依赖性图在物理上是可解释的。I.C.A.均值在两种特征体制下仍然是主导特征,这与较强的平均离子特性不匹配会增加局部晶格畸变并扩大竞争排序的能量谱的观点一致。这种解释与最近将EFA与碳化物中的尺寸不匹配和局部畸变效应联系起来的研究[10]相吻合。
3.5. 在化学外推和探索性外部筛选下的压力测试
一个关键的压力测试是留一元素外推(leave-one-element-out)。当完全省略一个元素时,性能急剧下降:Chem+CALPHAD模型的平均LOEO MAE为13.76,证实了当化学成分发生显著变化时,随机交叉验证会高估可部署的精度。最大的错误发生在含有W和Zr的成分上,而含有V的成分相对影响较小。图9展示了描述符空间的诊断,包括PCA和t-SNE投影,可视化了高EFA成分占据的不同子流形。
3.6. 限制与竞争利益的声明
作者声明没有竞争利益。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号