《Digital Discovery》:Rapid prediction of single-site adsorbate probability distributions in metal–organic frameworks using graph neural networks
编辑推荐:
金属有机框架(Metal–Organic Frameworks, MOFs)是由无机节点与有机连接体组装而成的多孔晶态材料,因孔隙率高、设计空间广阔,在气体分离与存储领域受到广泛关注。原子尺度模拟技术已被用于加速高性能MOFs的筛选与设计,其中吸附质概率分布(
金属有机框架(Metal–Organic Frameworks, MOFs)是由无机节点与有机连接体组装而成的多孔晶态材料,因孔隙率高、设计空间广阔,在气体分离与存储领域受到广泛关注。原子尺度模拟技术已被用于加速高性能MOFs的筛选与设计,其中吸附质概率分布(Adsorbate Probability Distribution, APD)是关键性质——该分布可映射给定温度压力下MOF孔道内吸附质分子的出现概率,其极大值对应自由能极小点(即结合位点)。尽管实验难以直接获取APD与结合位点,但通过模拟生成仍面临挑战:高通量生成APD需要长时模拟才能实现收敛。开发预测APD的机器学习模型,可将这一性质纳入数据驱动流程,用于识别高性能材料或结合位点,但目前尚无相关研究尝试将机器学习应用于MOFs的APD或结合位点预测。研究人员开发了名为DeepAPD的机器学习模型,可在给定温度和压力下预测APD,初始验证针对CH4、Xe等简单球形吸附质。与巨正则蒙特卡洛(Grand Canonical Monte Carlo, GCMC)模拟相比,DeepAPD生成MOF的APD速度提升超过105倍。研究详细讨论了训练策略、数据集规模与组成对模型性能的影响,证实机器学习得到的APD足以可靠估算MOFs中的结合位点,尤其是高概率结合位点。研究人员还评估了图神经网络模型在实验表征MOFs数据集上的迁移性,并将DeepAPD推理代码集成至结合位点识别算法中,实现从MOF到结合位点的端到端预测。未来工作将把模型扩展至CO2、N2、H2O等更复杂的客体分子。
该研究发表于《Digital Discovery》,针对金属有机框架(Metal–Organic Frameworks, MOFs)在高通量设计中面临的吸附质概率分布(Adsorbate Probability Distribution, APD)计算成本高的问题展开。传统实验手段如原位中子粉末衍射、单晶X射线衍射难以直接观测孔道内吸附质位置,而巨正则蒙特卡洛(Grand Canonical Monte Carlo, GCMC)模拟虽可生成APD,但收敛所需计算资源随体系复杂度显著上升,限制了大规模筛选的应用。为此,研究人员首次将机器学习引入MOFs的APD预测领域,开发了基于等变图神经网络(Equivariant Graph Neural Network, GNN)的DeepAPD模型,实现了对简单单位点吸附质APD的快速预测,为数据驱动的MOF设计提供了新的工具。
研究采用的核心技术方法包括:从ARC-MOF数据库随机抽取约2.3万种MOFs,通过GCMC模拟生成CH4(1 bar、65 bar,298 K)和Xe(1 bar,298 K)的APD数据集,并以MOSAEC-DB数据库的338种实验表征MOFs作为独立测试集;基于已报道的DeepDFT等变GNN架构改造DeepAPD模型,引入探针节点机制实现对任意空间分辨率三维网格的概率预测,采用负Tanimoto系数作为损失函数,训练过程中优先采样APD极大值区域;结合自研的客体原子定位算法(Guest Atom Localization Algorithm, GALA)从预测APD中提取结合位点,开发对称匹配算法对比模拟与预测的结合位点差异;通过计算相对熵分析APD的分布特征,采用均匀流形近似与投影(Uniform Manifold Approximation and Projection, UMAP)降维可视化结合位点的嵌入空间。
研究结果分为以下几个部分:
吸附质概率分布数据库:训练集与测试集的化学多样性覆盖相似配体空间,但训练集偏向小孔径、低孔隙体积的MOFs以保证APD收敛效率。APD的相对熵分析显示,低压下CH4的APD熵与孔结构相关性弱,高压下熵随孔尺寸增大而增加;Xe的APD整体熵更低,反映其更强的限域效应。
DeepAPD模型训练:迁移学习实验表明,用Xe(1 bar)预训练的模型微调CH4(65 bar)任务时,小数据集下的性能比随机初始化提升约4%,且训练步数减少70%。多任务模型仅需100个训练样本即可达到最大性能的90%以上,最终选择多任务模型作为通用版本。模型在开发集上的平均Tanimoto系数分别为CH4(1 bar)0.93、CH4(65 bar)0.83、Xe(1 bar)0.83;测试集上对应值为0.84、0.79、0.78,视觉对比显示高相似度样本的APD空间分布几乎一致,低相似度样本的差异主要来自低概率区域的偏差。
DeepAPD用于MOF结合位点识别:最优势结合位点的结合能预测中,CH4(1 bar)的决定系数R2达0.99,平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)仅0.91%;而Xe(1 bar)和CH4(65 bar)的R2分别为0.76和0.90,MAPE为4.23%和4.58%。结合位点匹配分析显示,开发集中CH4(1 bar)、Xe(1 bar)、CH4(65 bar)的匹配率分别为85%、76%、71%,测试集匹配率均提升至约80%。高占有率(>30%)位点的匹配率超过95%,全局最大值的预测准确率在开发集为73%~90%,测试集为78%~89%,匹配位点的位置平均误差小于0.3 ?。与单纯基于客体-主体相互作用能网格的预测相比,DeepAPD的位点识别误差降低50%以上。实验验证显示,DeepAPD预测的Sc2(BDC)3@CH4和SBMOF-1@Xe结合位点与单晶X射线衍射结果高度吻合。
结合位点相似性:DeepAPD的探针节点嵌入经UMAP降维后,能量呈现连续梯度分布,证明嵌入空间包含物理意义的环境信息,且测试集嵌入未偏离训练集分布,验证了模型的泛化性。
计算缩放与加速:DeepAPD在单GPU上的平均预测时间为201秒,单CPU执行比GCMC快约103倍,GPU加速下比GCMC快约105倍,且速度不受吸附质类型影响,适用于复杂多站点吸附质的高通量预测。
讨论与结论部分指出,现有MOF筛选多依赖总吸附量、选择性等宏观性质,而原子尺度的APD可提供吸附行为的精细描述,支撑数据驱动的合成靶标设计。DeepAPD首次实现了MOFs的APD快速预测,构建了包含约2.3万种MOFs的CH4与Xe的APD公开数据库,将结合位点识别流程从模拟依赖转为模型推理,大幅降低了计算成本。未来将扩展模型至多站点吸附质,需进一步优化架构以捕捉静电等复杂相互作用,并开发适配多组分APD的结合位点分析算法。该研究为生成式MOF设计提供了高信息量的描述符工具,推动了高通量材料发现流程的发展。