PoroNet:一种用于解析金属-有机框架中孔级吸附的内禀可解释孔网络图神经网络

《Journal of Chemical Theory and Computation》:PoroNet: An Intrinsically Interpretable Pore Graph Neural Network for Resolving Pore-Level Adsorption in Metal–Organic Frameworks

【字体: 时间:2026年05月30日 来源:Journal of Chemical Theory and Computation 5.5

编辑推荐:

  机器学习(ML)模型已被广泛用作高效替代模型,用于预测金属-有机框架(MOFs)在气体储存、化学分离和催化应用中的吸附性能。然而,这些ML模型的“黑箱”性质仍然是连接预测结果与新型MOFs设计之间的重要障碍。本研究提出了PoroNet,这是一种构建于孔网络图表

  
机器学习(ML)模型已被广泛用作高效替代模型,用于预测金属-有机框架(MOFs)在气体储存、化学分离和催化应用中的吸附性能。然而,这些ML模型的“黑箱”性质仍然是连接预测结果与新型MOFs设计之间的重要障碍。本研究提出了PoroNet,这是一种构建于孔网络图表示(即孔图,pore graph)之上的内禀可解释图神经网络架构。在孔图中,节点表示单个孔,边表示孔之间的连通关系。PoroNet在预测MOFs中的氢气(H2)吸附量和可输送容量方面表现出很高的准确性,并且在一个包含球形与线性烷烃吸附质的基准模拟吸附数据集上同样表现优异。更为重要的是,PoroNet能够通过直接监督学习,或在拟合总吸附容量时作为潜在表示,学习得到对总吸附量的准确孔级贡献。在具有显式孔级标签的直接监督学习中,研究人员表明PoroNet架构具有较高的数据效率,仅需标准方法训练所需模拟次数的一小部分即可获得相当的性能。孔级贡献有助于解释ML对总体吸附行为的预测,识别控制吸附过程的关键孔性质,并为孔工程提供重要见解。研究人员证明,PoroNet是用于高通量孔筛选以及提炼低温H2储存应用中有价值MOF设计规则的强大工具。最后,研究还讨论了利用可解释机器学习实现可扩展科学发现与材料发现的潜力。
该论文发表于《Journal of Chemical Theory and Computation》,核心工作是提出一种面向金属-有机框架(MOFs)气体吸附预测的内禀可解释图神经网络模型PoroNet,并以孔网络而非传统原子晶体图作为建模对象,实现金属-有机框架总吸附性能与孔级吸附贡献的统一学习。研究背景在于,MOFs因超高比表面积和可调孔结构而成为储气、分离与催化领域的重要多孔晶体材料,但其结构设计空间极大,依赖巨正则蒙特卡罗(GCMC)模拟进行高通量筛选会消耗大量计算资源。尽管近年来机器学习(ML)已成为吸附预测的重要替代工具,但多数模型属于“黑箱”,虽然在总吸附量预测上较为准确,却难以揭示材料内部哪些孔结构主导了吸附行为,也难以进一步提炼可靠的材料设计规则。因此,如何构建既符合吸附物理关系、又保有较强预测能力的可解释模型,成为该领域的关键问题。

围绕这一问题,研究人员提出PoroNet架构,其理论基础是一个与吸附过程相一致的归纳偏置:MOF的总吸附量应当可表示为各个孔吸附贡献之和。与传统以原子和化学键构建晶体图的方法不同,PoroNet首先对MOF孔隙空间进行分割,将单个孔作为图节点、孔间连通关系作为图边,形成孔图(pore graph);再以孔级能量直方图作为节点特征,输入共享权重的多层感知机(MLP),预测每个孔的吸附贡献,最后通过求和池化(sum pooling)得到MOF整体吸附性质。该架构的关键意义在于,模型中的潜变量?i被直接约束为具有物理意义的孔级吸附量或孔级吸附密度,而非仅提供类似注意力分数那样的定性解释。因此,PoroNet不仅能够进行MOF级预测,还能在结构上实现孔级可解释性。

为开展研究,作者主要采用以下技术方法:首先,从ToBaCCo 1.0数据库中随机选取2,000个结构多样的MOFs,并使用RASPA2进行H2在低温与常温条件下的GCMC模拟,提取MOF级与孔级吸附数据;其次,基于距离网格、局部极大值检测与分水岭分割(Watershed segmentation)构建孔图,并以孔级能量直方图编码局部几何与化学环境;随后,建立PoroNet与仅用MOF级标签训练的PoroNet-Base两类模型,并与LASSO、随机森林(RF)、多层感知机(MLP)等基线模型比较;最后,结合统一流形近似与投影(UMAP)等无监督降维方法,对ToBaCCo数据库中的孔进行高通量分析。样本队列主要来源于ToBaCCo数据库及文献中的若干真实框架材料。

以下为论文结果部分的凝练解读。

3.1. Joint Learning of Gas Adsorption from Hierarchical Labels
研究人员首先检验PoroNet在同时使用MOF级和孔级层级标签条件下的联合学习能力。结果表明,在低温H2吸附密度与体积可输送容量预测中,PoroNet在MOF层面达到很高精度,决定系数R2为0.98,平均绝对误差(MAE)为0.05–0.55 g/L;在孔层面同样实现了定量准确预测,R2为0.92–0.94,MAE为0.19–1.88 g/L。这说明该模型首次较为可靠地实现了孔级吸附容量的机器学习定量预测。研究还发现,小于5 ?的较小孔更易出现偏离,原因主要与0.5 ?网格分辨率下小孔能量直方图信息不足及孔体积估计噪声有关。除吸附密度外,若将孔体积作为额外节点特征,PoroNet还可精确预测吸附分子数,这对于化学分离中选择性估算具有潜在价值。

3.2. Intrinsic Pore-Level Adsorption Prediction from MOF-Level Supervision
本节验证PoroNet-Base,即仅用MOF总吸附标签训练的模型,是否仍能从潜在表示中恢复孔级吸附性质。结果显示,PoroNet-Base在MOF级预测上与PoroNet几乎相当,而更重要的是,其未显式使用孔级标签时,仍可得到与PoroNet接近的孔级预测精度。这表明孔级吸附贡献作为模型内生涌现的潜变量,确实来源于PoroNet架构中“总吸附等于各孔贡献求和”的物理归纳偏置。作者强调,这种可解释性不同于注意力机制中仅反映“模型关注哪里”的定性信号,而是与真实物理分解直接对齐的定量解释。研究同时指出,目前这一可解释性的验证仍主要基于GCMC轨迹后处理得到的孔级数据,未来可通过气体吸附晶体学实验进一步开展更严格的实验验证。

3.3. Benchmark of PoroNet-Base against Baseline ML Models on Existing Adsorption Data Sets
由于PoroNet-Base训练时不依赖孔级标签,作者将其应用到公开的Kr、Xe、乙烷和丙烷吸附数据集,并与多类基线ML模型系统比较。结果表明,在多数吸附体系中,PoroNet-Base均优于基于MOF级能量直方图或纹理特征的LASSO、RF和MLP模型,MAE降低幅度为1.2%–62.6%。这说明孔图架构与孔级局部环境编码在多种吸附质场景下具有普适优势。但在高压乙烷与高压丙烷吸附中,该模型性能不及部分纹理特征模型。作者认为,这与一维能量直方图特征在孔趋于饱和时的局限性有关,特别是毛细凝聚(capillary condensation)发生时,局部假设不足以完整表达孔网络效应,提示未来需通过图卷积或消息传递机制进一步编码孔连通性。

3.4. Data Efficiency of PoroNet Architecture
作者进一步评估PoroNet的数据效率,即在小样本训练条件下的表现。以160 K/5 bar下H2吸附分子数预测为例,研究人员比较了LASSO、MLP、PoroNet与PoroNet-Base在仅有5–300个MOF训练样本时的学习曲线。结果显示,在极低数据区间,PoroNet优势最为显著。例如仅用10个MOF训练时,PoroNet在MOF级MAE明显低于其他模型,且不同随机划分下标准差更小,表现出更高稳健性。在孔级预测上,PoroNet也明显优于PoroNet-Base。作者据此认为,双层监督方式使模型能够从每次模拟中提取更细粒度的信息,因此在高质量吸附数据昂贵、稀缺的场景中具有实际应用价值。不过,作者也指出,这种数据优势并非在所有任务上都同等显著,但PoroNet家族在低数据条件下总体仍持续优于基线模型。

3.5. High-Throughput Screening of MOF Pores for Cryogenic H2 Storage Applications
借助孔级可解释性,作者首次在数据库尺度上系统分析MOF孔环境与低温H2储存性能之间的关系。研究对ToBaCCo数据库中13,477个成功构图的MOFs、共89,773个可接近孔进行了预测,并通过UMAP对孔级能量直方图进行降维可视化。结果显示,所有孔在二维嵌入空间中呈U形分布,孔级H2可输送容量沿该分布先升后降;与孔径对照后可见,极小孔和极大孔均表现较差,中等孔径区域对应高性能孔。将文献中若干真实高性能框架材料的孔投影到同一空间后,这些真实孔大多分布在高容量区域,间接支持了PoroNet对未知真实材料的泛化能力。

随后,作者深入分析孔径与孔形状对性能的影响。结果表明,孔级低温H2可输送容量随孔径增加先上升,在8–11 ?范围达到峰值,之后下降并趋于约32 g/L。通过对代表性小孔、中孔和大孔的孔空间能量区域进行分析,研究人员指出:小孔中排斥区域占比大,不利于H2进入;大孔中心存在大量零相互作用自由空间,降低体积可输送容量;而8–11 ?孔中有利吸附能区间(?7至?1 kJ/mol)占比最高,因此表现最佳。进一步研究发现,在相似孔径范围内性能仍有较大差异,说明除孔径外还有其他决定因素。经分析,作者识别出孔形状是另一个关键变量。在8–11 ?范围的高性能孔中,双锥型或类双锥型几何更常见,且通常拥有更高比例的有利能量区域。以MOF-5、HKUST-1和tobmof-12328中相近孔径的代表性孔为例,双锥型孔显示出更高的孔级H2可输送容量,支持作者关于最优孔形状的判断。

3.6. Design Insights into High-Performing MOFs
在明确高性能孔特征后,作者进一步讨论如何将孔级规律上升为MOF设计规则。研究发现,孔级H2可输送容量与所属MOF的总体可输送容量总体呈正相关,但并不存在简单因果对应。原因在于MOF整体性能由各孔贡献按体积分数加权求和决定,因此优异孔可能存在于一般MOF中,而高性能MOF也可能包含部分表现一般的孔。通过比较MOF-5、HKUST-1和tobmof-12328,作者指出,MOF-5虽然不含最优单孔,但因孔性能分布更均衡且空隙率较高,MOF级总表现最好;HKUST-1虽然部分孔更优,但空隙率较小,导致总体性能较低;tobmof-12328通过扩大骨架获得最优孔径范围内的高性能孔,但也同时生成了一些偏离最佳孔径的低性能邻近孔,从而限制了整体提升。由此,作者提出面向下一代H2储存MOFs的三项互补设计准则:引入高性能孔、维持高空隙率、并保证孔级性能分布的均衡性。

3.7. From GCMC to Interpretable ML for Scalable Adsorption Analysis
最后,作者从计算可扩展性的角度比较了传统GCMC轨迹后处理与PoroNet-Base在孔级吸附分析中的效率差异。若要对整个ToBaCCo数据库的全部孔进行两种工况下的H2孔级吸附分析,传统方法需先完成大量GCMC模拟,再保存庞大轨迹文件并逐孔后处理,总计约需545,874 CPU小时和约1.5 TB存储。相比之下,PoroNet-Base流程只需为1,000个MOF生成训练数据、为全库构建孔图并完成模型训练,即可在不到1分钟内预测全库所有孔的孔级吸附容量,总计约41,111 CPU小时和198 MB存储,分别在计算时间和存储需求上实现约1个数量级和3–4个数量级的改进。该结果表明,具备内禀解释性的ML模型不仅能够进行预测,更可作为数据库尺度吸附机理分析的高效工具。

讨论部分表明,PoroNet的意义不仅在于提高预测精度,更在于提供与物理过程一致的可解释框架。作者认为,这一框架使研究人员能够直接从总吸附数据中恢复孔级贡献,从而在无需昂贵轨迹分析的情况下挖掘材料设计规律。该工作将吸附领域中对“可解释机器学习”的需求,从事后解释推进到结构性、机制性的内嵌解释。与此同时,作者也谨慎指出,PoroNet的解释性依赖于初始孔分割,而孔分割本身并非唯一;尽管本文提出的几何分割方法具有较好稳健性与可重复性,这仍是模型适用性中的一个边界条件。此外,当前版本未纳入图卷积层,是因为本文研究的主要体系中吸附行为主要由局部环境决定;未来若扩展至毛细凝聚等更强依赖孔网络连通性的现象,则需要显式引入图卷积或消息传递机制。

论文结论可译述为:本研究开发了PoroNet,一种内禀可解释的图神经网络模型,可在材料层面和单孔层面准确预测MOFs中的吸附行为。该模型基于MOF结构的孔网络图构建,图中的节点和边分别代表单个孔及其连通关系。通过将每个孔的能量直方图编码为节点特征,并利用来源于GCMC模拟的MOF级与孔级H2吸附层级标签进行训练,PoroNet在低温H2吸附性质预测中于MOF层面和孔层面均表现出优异精度。除吸附密度外,引入孔体积作为额外节点特征后,PoroNet还可准确预测MOFs与孔中的H2吸附分子数。更重要的是,即使仅使用MOF级吸附数据训练,PoroNet-Base仍可通过学习到的潜在表示预测孔级吸附性质,其精度与显式使用孔级标签训练的PoroNet相当。这种内禀孔级可解释性源于模型中引入的归纳偏置,即MOF中的总吸附量是所有孔吸附量之和。作者进一步证明,PoroNet-Base在多种公开吸附数据集上通常优于常见基线模型,并可在不牺牲总吸附预测精度的情况下,为材料吸附性能解释提供独特的孔级信息。研究还表明,PoroNet家族在低数据条件下具有更好的数据效率和训练稳健性。通过对ToBaCCo数据库中孔的高通量筛选,作者识别出控制低温H2可输送容量的两个关键孔性质,即孔径与孔形状,并指出直径为8–11 ?的类双锥孔最有利于H2储存。进一步结合代表性MOFs的分析,作者提出高性能MOF设计应兼顾高性能孔、高空隙率及孔性能分布均衡这三项因素。最后,研究显示,PoroNet-Base在孔级吸附分析方面较传统GCMC轨迹后处理具有显著的时间与存储优势,说明该架构是挖掘现有数据库并提取以往难以获得的孔级信息的强大工具,也为未来扩展到扩散等其他材料性质提供了可行路径。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号