《Advanced Powder Materials》:Data-driven Design of Electrocatalysts: Machine Learning Workflows, Paradigm Shifts, and Applications
编辑推荐:
机器学习(ML)正通过克服试错实验与昂贵量子模拟的局限性,变革面向碳中和能源转型的电催化剂发现进程。本综述总结了数据驱动电催化的最新进展,聚焦于两大新兴范式转变:大语言模型(LLM)辅助的自主文献挖掘与图神经网络(GNN)驱动的材料表征。研究人员首先追溯了从手
机器学习(ML)正通过克服试错实验与昂贵量子模拟的局限性,变革面向碳中和能源转型的电催化剂发现进程。本综述总结了数据驱动电催化的最新进展,聚焦于两大新兴范式转变:大语言模型(LLM)辅助的自主文献挖掘与图神经网络(GNN)驱动的材料表征。研究人员首先追溯了从手动数据整理到LLM辅助挖掘的演变历程,该转变将数据库构建速度提升了数个数量级;其次阐述了从手工描述符到GNN的转变,将计算筛选空间从数千种候选材料扩展至数百万种。随后,研究人员讨论了主动学习、符号回归等关键算法及其在析氢反应(HER)、析氧反应(OER)、氧还原反应(ORR)和二氧化碳还原反应(CO2RR)中的应用,阐明了这些算法如何助力识别非直观描述符以合理化活性趋势。研究人员进一步强调了此类基于描述的预测如何指导特定催化剂基元或反应路径的发现,从而规避或打破多电子转移过程中固有的复杂标度关系。最后,研究人员批判性地探讨了数据异质性、模型可解释性及合成-性能差距相关的挑战,并对集成物理信息机器学习与自主驾驶实验室以加速下一代电催化剂理性设计的未来前景进行了展望。
该研究针对化石能源向可再生能源转型中电化学储能技术面临的催化剂开发效率低、成本高及理论模拟受限等问题,由海南大学Ziwei Liu、Hanqing Gu、Liwei Yang、Wengcheng Wu、Zhong Huang、Haozhi Wang、Yang Wang及Yida Deng团队完成,旨在系统梳理机器学习(ML)驱动电催化剂发现的完整生态体系。研究指出,传统试错法受限于化学空间庞大(超1060种候选材料)及密度泛函理论(DFT)的计算成本与理想化假设,难以满足实际需求。为此,研究人员构建了从数据收集、特征工程到算法应用的全流程ML工作流,重点分析了大语言模型(LLM)辅助文献挖掘与图神经网络(GNN)表征两大范式转变,并系统应用于HER、OER、ORR及CO2RR四大关键反应,揭示了数据驱动方法在突破标度关系限制、识别非直观描述符方面的优势,最终为物理信息ML与自主实验室的融合提供了前瞻性视角,相关成果发表于《Advanced Powder Materials》。
研究采用的核心技术方法包括:1. 数据层面,结合Open Catalyst Project(OC20)等标准化计算数据库与LLM驱动的自主文献挖掘(如MaTableGPT),解决数据稀疏与异构问题;2. 特征工程层面,从传统d带中心等手工描述符演进至晶体图卷积神经网络等GNN表征,并结合SISSO符号回归实现可解释特征生成;3. 算法层面,集成监督学习(线性回归、核岭回归KRR、高斯过程回归GPR、随机森林RF、梯度提升树XGBoost、物理信息神经网络TinNet)、无监督学习(k-means、DBSCAN、PCA、t-SNE)及主动学习策略,平衡探索与开发;4. 验证层面,采用分布外测试与不确定性量化(UQ)确保模型泛化性。
研究结果如下:
- 1.
机器学习工作流
研究人员建立了涵盖数据收集、特征工程、算法选择与验证的迭代式ML工作流。数据收集端,LLM(如MaTableGPT)实现了从1.1万篇文献中提取2400余条性能数据的高效挖掘,解决了传统手动整理的耗时问题;特征工程端,GNN通过原子图节点与边的信息传递,实现了对催化剂局部化学环境的精准表征,替代了传统手工描述符;算法端,主动学习与GPR的不确定性估计结合,引导实验向高信息量区域探索,如Zhou等建立的闭环逆向设计工作流将单样品周转时间从~20小时缩短至78分钟,成功筛选出过电位为324.3 mV@10 mA/cm2的高熵催化剂。
- 2.
机器学习在电催化中的应用
2.1 析氢反应(HER)
研究人员发现传统ΔGH*单一描述符不足以解释复杂体系。Ha等对M-N4-C体系的ML分析表明,吸附氢的Bader电荷是调控界面水网络重组能的关键动力学描述符;Zhao等揭示第二壳层配位原子的电负性可通过调节活性金属的d带中心精细调控H*结合强度;Lv等对石墨烯纳米带的研究显示边缘掺杂比基底掺杂更有效,梯度提升回归(GBR)成功将电离能等本征描述符映射至过电位。
2.2 析氧反应(OER)
针对OER四电子转移的固有标度关系限制,Xu等提出整合一/二壳层价电子数与电负性的“配位自适应”描述符,统一了单原子催化剂(SAC)的活性趋势;Pei等通过ML解析Ni基层状双氢氧化物的3d轨道分裂,发现dx2-y2轨道能级是比平均d带中心更精确的描述符;Zhang等利用随机森林(RF)导航Fe-Co-Mn三元相空间,GPR的不确定性估计指导实验获得了优于商业RuO2的高熵尖晶石氧化物。
2.3 氧还原反应(ORR)
Xu等构建的融合16种本征特征的φ'描述符,有效线性化了ΔGOH*与ΔGOOH*的相关性,为TM-N-C基元提供了通用活性图谱;Xie等的随机森林回归(RFR)分析表明第二壳层掺杂可不对称调控中间体能级,使Fe/Co中心接近理论活性峰值;Song等开发的CNN与迁移学习融合框架,通过符号回归迭代优化,筛选出过电位仅0.30 V的Fe-Fe双位点催化剂;Ye等证实边缘拓扑缺陷是调控边锚定SAC活性的关键因素,GBR模型成功设计了ηORR=0.38 V的E-Rh-N4-C催化剂。
2.4 二氧化碳还原反应(CO2RR)
Xiao等结合电场调控恒电势模型与XGBoost,筛选出耦合能与平均带隙偏差为关键特征的咪唑盐微环境调控剂;Wang等集成主动学习ML与大尺度分子动力学(MD),揭示高pH可削弱*OCHO结合并提升HCOOH选择性;Zhang等建立的ML加速高通量筛选框架,通过三步筛选从99种M-N-C催化剂中确定了Pt-NC2与Mn-NC2为最优CO2-to-CO候选材料;Ai等结合PaiNN与主动学习的工作流,高效发现了23种稳定的PdxTi1-xHy表面构型,显著加速了CO2RR选择性材料的发现。
讨论与结论部分指出,尽管LLM辅助挖掘与GNN表征已大幅提升筛选效率,但数据质量(发表偏倚、实验不一致性)、模型可解释性(黑箱问题)及合成-性能差距仍是主要挑战。研究人员强调,未来需发展物理信息机器学习(PIML)以嵌入电化学原理与热力学约束,结合自主驾驶实验室实现“预测-合成-表征-反馈”闭环。通过融合可解释人工智能(XAI)、LLM知识蒸馏与GPR主动学习,有望将催化剂发现周期从数年缩短至数月,推动电解水、燃料电池及CO2转化技术的商业化进程,为可持续碳中和能源未来奠定基础。