数据驱动筛选具有增强塞贝克系数的热化学电池电解质基质-离子对

《Materials Today Communications》:Data Driven Screening of Electrolyte Matrix–Ion Pairs with Enhanced Seebeck Coefficients in Thermoelectrochemical Cells

【字体: 时间:2026年06月21日 来源:Materials Today Communications? 3.7

编辑推荐:

  本研究报道了一个基于机器学习的框架,用于预测由基质-离子供体组合构成的离子热电材料的塞贝克(Seebeck)系数,应用于热电化学领域。研究人员从已发表的文献中汇编了73个离子热电样品的数据集,并使用RDKit工具包提取了基质材料和离子供体的分子描述符。采用递归

  
本研究报道了一个基于机器学习的框架,用于预测由基质-离子供体组合构成的离子热电材料的塞贝克(Seebeck)系数,应用于热电化学领域。研究人员从已发表的文献中汇编了73个离子热电样品的数据集,并使用RDKit工具包提取了基质材料和离子供体的分子描述符。采用递归特征消除(Recursive Feature Elimination, RFE)方法识别出包含12个描述符的最优子集,从而以最少的特征参数实现准确预测。可解释的SHAP(Shapley Additive exPlanations)分析和相关性分析确定了FractionCSP3和分子量(Molecular Weight, MW)是热电性能的关键决定因素。在评估的十五个模型中,基于决策树的方法(决策树、极端随机树、随机森林)达到了最高的预测精度,并通过加权集成方法进行组合,以稳健地预测100个先前未见过的基质-离子供体系统的塞贝克系数。集成结果识别出多个高性能候选材料,特别是基于聚氨酯、纤维素和聚乙烯醇的系统,其预测的塞贝克系数高达38.73 mV K-1。这项研究表明,具有降低特征维度的可解释机器学习模型能够有效加速用于可穿戴热电化学应用的高性能离子热电材料的发现。
**研究背景与问题**
随着可穿戴电子设备在医疗监测、实时诊断等领域的重要性日益凸显,对轻量化、柔性且与人体兼容的电源需求急剧增长。传统电池和超级电容器存在体积大、结构刚硬、寿命短和需频繁充电等问题。因此,能够将低品位热能转化为电能的自供电技术受到广泛关注。热电化学电池(Thermoelectrochemical Cells, TECs)作为一种有前景的替代方案,其通过熵驱动的氧化还原过程将低温差转化为电能,具有结构简单、机械柔性、环境兼容性好和材料成本低等优点,非常适合用于可穿戴设备。离子塞贝克系数(Si = ΔV/ΔT)是衡量TECs性能的关键参数,它受分子结构、离子迁移率、电荷重分布和溶剂化熵的强烈影响。然而,通过实验方法寻找最优的基质-离子供体组合不仅成本高昂、耗时,而且极具挑战性。尽管离子热电(i-TE)材料研究已取得进展,但目前仍缺乏一种能够从基本分子特征准确预测塞贝克系数的综合性机器学习(Machine Learning, ML)方法。这一空白凸显了开发能够加速材料发现并指导下一代可穿戴设备用高性能TEC电解质理性设计的机器学习框架的必要性。

**研究内容与方法概述**
本研究旨在开发一个数据驱动的机器学习框架,用于预测离子热电材料的塞贝克系数,并识别高性能的基质-离子供体组合。研究人员从已发表文献中收集了73个离子热电(i-TE)材料组合(包含18种独特基质和21种独特离子供体)的实验数据作为数据集。研究的关键技术方法包括:1) **分子描述符提取与表示**:使用简化分子线性输入规范(Simplified Molecular-Input Line-Entry System, SMILES)字符串编码分子结构,并利用RDKit化学信息学工具包从中提取了200多个分子描述符。2) **特征选择与优化**:采用递归特征消除(RFE)结合交叉验证,从初始描述符中筛选出12个与离子热电性能最相关的关键分子描述符,以降低维度并防止过拟合。3) **机器学习模型构建与评估**:使用Python的Scikit-learn库构建并系统评估了15种不同的机器学习模型(包括决策树、随机森林、极端随机树、支持向量机等),通过决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)等指标比较其性能。4) **模型集成与预测**:选择性能最优的三个树基模型(决策树、极端随机树、随机森林),基于它们在测试集上的R2分数进行加权集成,形成最终预测模型,用于对100个新的、化学上可行的基质-离子供体组合进行塞贝克系数预测。5) **模型可解释性分析**:利用SHAP(Shapley Additive exPlanations)分析和相关性分析,深入探究关键分子描述符对塞贝克系数预测的影响,揭示其背后的物理化学机制。

**研究结果**
**1. 最优特征子集的识别**
通过递归特征消除(RFE)与交叉验证,研究人员确定了一个包含12个分子描述符的最优特征子集,该子集在预测性能与模型效率之间取得了最佳平衡。该子集包括来自基质和离子供体的描述符,如定量药物相似性估计(qed)、价电子数(NumValenceElectrons)、巴拉班J值(BalabanJ, BJ)、sp3杂化碳原子分数(FractionCSP3, FCSP3)、氢键受体数(NumHAcceptors)、可旋转键数(NumRotatableBonds, nRB)、分子量(MolWt, MW)、摩尔折射率(MolMR, MR)等。随后的渐进式特征重要性分析证实,使用这12个特征的子集训练模型时,获得了最高的R2值以及最低的MAE和RMSE值。

**2. 机器学习模型性能比较与优化**
在评估的15个机器学习模型中,基于决策树的方法(决策树、极端随机树、随机森林)表现最佳,在训练集和测试集上均显示出最高的R2值和较低的MAE、RMSE值。通过重复K折交叉验证和随机种子敏感性分析进一步验证了模型的稳健性。分析结果表明,极端随机树(Extra Trees)模型在预测精度和稳定性方面综合表现最优,其归一化RMSE约为0.63 ± 0.17,且对数据划分和算法随机性不敏感。

**3. 高性能材料组合的预测**
利用优化后的加权集成模型(权重分配:极端随机树 0.346,决策树 0.343,随机森林 0.311),研究人员对100个新的基质-离子供体组合的塞贝克系数进行了预测。结果识别出多个具有高预测塞贝克系数的候选系统。其中,基于聚氨酯(WPU)、纤维素纳米纤维膜和聚乙烯醇(PVA)薄膜的基质与特定离子供体(如KI、NaI、NaOH等)的组合表现尤为突出。预测塞贝克系数最高的组合(WPU + KI)达到了38.73 mV K-1。这些预测结果为后续的实验验证和材料优化提供了优先指导。

**4. 模型可解释性与关键影响因素分析**
通过SHAP分析和相关性分析,研究人员深入探讨了关键分子描述符对塞贝克系数的影响。SHAP特征重要性排名显示,基质的sp3杂化碳原子分数(FCSP3)1和离子供体的分子量(MW)2是对模型预测影响最大的特征,它们对塞贝克系数有正向贡献。相关性分析进一步证实,FCSP3和BalabanJ(BJ)1与塞贝克系数呈最显著的正相关,而离子供体的可旋转键数(nRB)2和摩尔折射率(MR)2则呈最显著的负相关。这些发现表明,分子结构的饱和度(sp3杂化程度高)、分子量较大可能通过增强构型熵和离子-基质相互作用来提高热电输运效率;而过高的分子柔性和极化性(反映在可旋转键数和摩尔折射率上)可能会破坏有序的离子传输路径,从而降低热扩散效率。综合多种评估方法得出的整体特征排名确认,分子量(MW)2和基质的药物相似性估计(qed)1在所有分析中均被视为最重要的描述符。

**讨论与结论**
本研究成功开发并验证了一个数据高效、可解释的机器学习框架,用于预测离子热电材料的塞贝克系数。通过使用精心策划的数据集、实验验证的离子供体组合以及优化的特征选择策略,有效缓解了数据有限场景下的过拟合问题,提高了预测的准确性和泛化能力。模型可解释性分析(如SHAP和相关性分析)不仅验证了预测的可靠性,更重要的是揭示了分子量、结构灵活性和化学复杂性等物理化学因素在调控离子热扩散和熵输运中的核心作用,为理性设计高性能离子热电材料提供了关键见解。加权集成方法结合了多个高性能树基模型的优势,进一步增强了预测的稳健性和外推至新化学空间的能力。该框架成功预测出多个具有高塞贝克系数的潜在高性能基质-离子供体组合,特别是基于聚氨酯、纤维素和聚乙烯醇的系统,凸显了其作为集成筛选与设计平台的应用价值。最终,这项工作为未来能量收集应用,特别是用于可穿戴设备的高效热电化学电池的设计、开发和优化做出了重要贡献。

**研究结论翻译**
本研究揭示了数据高效和机器学习方法在预测对热电化学电池和可穿戴设备至关重要的离子热电材料定量塞贝克系数方面的重要性。该研究还表明,通过使用精心策划的数据集、实验验证的离子供体组合和优化的特征选择,可以缓解数据有限情况下的过拟合,提高预测的准确性和泛化能力。此外,模型可解释性分析(如SHAP和相关性分析)揭示了每个选定特征对模型预测的影响,提供了关键的物理见解。该分析表明,分子量、结构灵活性和化学复杂性在调控离子热扩散和熵输运中起着核心作用。为了获得更高的稳健性和泛化能力,采用了加权集成方法,该方法基于测试集R2分数结合了前三个树基机器学习模型的结果,强调了更准确的结果,从而能够可靠地外推至先前未探索的化学空间。随后,机器学习模型成功预测了几种具有高塞贝克系数的基质-离子供体组合,特别是主要包含聚氨酯基、纤维素基和PVA基的系统。这一发现进一步突出了该框架作为集成筛选和设计平台的实用性。最终,这项工作为未来能量收集应用的高效热电化学电池的设计和优化做出了有意义的贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号