利用图神经网络快速预测金属有机框架中单位点吸附质概率分布

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Discovery》：Rapid prediction of single-site adsorbate probability distributions in metal–organic frameworks using graph neural networks

【字体：大中小】 时间：2026年05月28日 来源：Digital Discovery 5.6

编辑推荐：

　　金属有机框架（Metal–Organic Frameworks, MOFs）是由无机节点与有机连接体组装而成的多孔晶态材料，因孔隙率高、设计空间广阔，在气体分离与存储领域受到广泛关注。原子尺度模拟技术已被用于加速高性能MOFs的筛选与设计，其中吸附质概率分布（

金属有机框架（Metal–Organic Frameworks, MOFs）是由无机节点与有机连接体组装而成的多孔晶态材料，因孔隙率高、设计空间广阔，在气体分离与存储领域受到广泛关注。原子尺度模拟技术已被用于加速高性能MOFs的筛选与设计，其中吸附质概率分布（Adsorbate Probability Distribution, APD）是关键性质——该分布可映射给定温度压力下MOF孔道内吸附质分子的出现概率，其极大值对应自由能极小点（即结合位点）。尽管实验难以直接获取APD与结合位点，但通过模拟生成仍面临挑战：高通量生成APD需要长时模拟才能实现收敛。开发预测APD的机器学习模型，可将这一性质纳入数据驱动流程，用于识别高性能材料或结合位点，但目前尚无相关研究尝试将机器学习应用于MOFs的APD或结合位点预测。研究人员开发了名为DeepAPD的机器学习模型，可在给定温度和压力下预测APD，初始验证针对CH4、Xe等简单球形吸附质。与巨正则蒙特卡洛（Grand Canonical Monte Carlo, GCMC）模拟相比，DeepAPD生成MOF的APD速度提升超过105倍。研究详细讨论了训练策略、数据集规模与组成对模型性能的影响，证实机器学习得到的APD足以可靠估算MOFs中的结合位点，尤其是高概率结合位点。研究人员还评估了图神经网络模型在实验表征MOFs数据集上的迁移性，并将DeepAPD推理代码集成至结合位点识别算法中，实现从MOF到结合位点的端到端预测。未来工作将把模型扩展至CO2、N2、H2O等更复杂的客体分子。

该研究发表于《Digital Discovery》，针对金属有机框架（Metal–Organic Frameworks, MOFs）在高通量设计中面临的吸附质概率分布（Adsorbate Probability Distribution, APD）计算成本高的问题展开。传统实验手段如原位中子粉末衍射、单晶X射线衍射难以直接观测孔道内吸附质位置，而巨正则蒙特卡洛（Grand Canonical Monte Carlo, GCMC）模拟虽可生成APD，但收敛所需计算资源随体系复杂度显著上升，限制了大规模筛选的应用。为此，研究人员首次将机器学习引入MOFs的APD预测领域，开发了基于等变图神经网络（Equivariant Graph Neural Network, GNN）的DeepAPD模型，实现了对简单单位点吸附质APD的快速预测，为数据驱动的MOF设计提供了新的工具。

研究采用的核心技术方法包括：从ARC-MOF数据库随机抽取约2.3万种MOFs，通过GCMC模拟生成CH₄（1 bar、65 bar，298 K）和Xe（1 bar，298 K）的APD数据集，并以MOSAEC-DB数据库的338种实验表征MOFs作为独立测试集；基于已报道的DeepDFT等变GNN架构改造DeepAPD模型，引入探针节点机制实现对任意空间分辨率三维网格的概率预测，采用负Tanimoto系数作为损失函数，训练过程中优先采样APD极大值区域；结合自研的客体原子定位算法（Guest Atom Localization Algorithm, GALA）从预测APD中提取结合位点，开发对称匹配算法对比模拟与预测的结合位点差异；通过计算相对熵分析APD的分布特征，采用均匀流形近似与投影（Uniform Manifold Approximation and Projection, UMAP）降维可视化结合位点的嵌入空间。

研究结果分为以下几个部分：

吸附质概率分布数据库：训练集与测试集的化学多样性覆盖相似配体空间，但训练集偏向小孔径、低孔隙体积的MOFs以保证APD收敛效率。APD的相对熵分析显示，低压下CH₄的APD熵与孔结构相关性弱，高压下熵随孔尺寸增大而增加；Xe的APD整体熵更低，反映其更强的限域效应。

DeepAPD模型训练：迁移学习实验表明，用Xe（1 bar）预训练的模型微调CH₄（65 bar）任务时，小数据集下的性能比随机初始化提升约4%，且训练步数减少70%。多任务模型仅需100个训练样本即可达到最大性能的90%以上，最终选择多任务模型作为通用版本。模型在开发集上的平均Tanimoto系数分别为CH₄（1 bar）0.93、CH₄（65 bar）0.83、Xe（1 bar）0.83；测试集上对应值为0.84、0.79、0.78，视觉对比显示高相似度样本的APD空间分布几乎一致，低相似度样本的差异主要来自低概率区域的偏差。

DeepAPD用于MOF结合位点识别：最优势结合位点的结合能预测中，CH₄（1 bar）的决定系数R²达0.99，平均绝对百分比误差（Mean Absolute Percentage Error, MAPE）仅0.91%；而Xe（1 bar）和CH₄（65 bar）的R²分别为0.76和0.90，MAPE为4.23%和4.58%。结合位点匹配分析显示，开发集中CH₄（1 bar）、Xe（1 bar）、CH₄（65 bar）的匹配率分别为85%、76%、71%，测试集匹配率均提升至约80%。高占有率（>30%）位点的匹配率超过95%，全局最大值的预测准确率在开发集为73%~90%，测试集为78%~89%，匹配位点的位置平均误差小于0.3 ?。与单纯基于客体-主体相互作用能网格的预测相比，DeepAPD的位点识别误差降低50%以上。实验验证显示，DeepAPD预测的Sc₂(BDC)₃@CH₄和SBMOF-1@Xe结合位点与单晶X射线衍射结果高度吻合。

结合位点相似性：DeepAPD的探针节点嵌入经UMAP降维后，能量呈现连续梯度分布，证明嵌入空间包含物理意义的环境信息，且测试集嵌入未偏离训练集分布，验证了模型的泛化性。

计算缩放与加速：DeepAPD在单GPU上的平均预测时间为201秒，单CPU执行比GCMC快约10³倍，GPU加速下比GCMC快约10⁵倍，且速度不受吸附质类型影响，适用于复杂多站点吸附质的高通量预测。

讨论与结论部分指出，现有MOF筛选多依赖总吸附量、选择性等宏观性质，而原子尺度的APD可提供吸附行为的精细描述，支撑数据驱动的合成靶标设计。DeepAPD首次实现了MOFs的APD快速预测，构建了包含约2.3万种MOFs的CH₄与Xe的APD公开数据库，将结合位点识别流程从模拟依赖转为模型推理，大幅降低了计算成本。未来将扩展模型至多站点吸附质，需进一步优化架构以捕捉静电等复杂相互作用，并开发适配多组分APD的结合位点分析算法。该研究为生成式MOF设计提供了高信息量的描述符工具，推动了高通量材料发现流程的发展。

联系信箱：

粤ICP备09063491号

热点排行