《ACS Environmental Au》:Prediction of Solute Descriptors for Linear Solvation Energy Relationships Using K-Nearest Neighbors, Group Contributions, and Graph-Convolutional Neural Networks
编辑推荐:
线性溶剂化能关系(Linear Solvation Energy Relationship, LSER)模型目前常用于预测化学品的物理化学性质,如分配系数、色谱保留因子和溶解度。由于其机理基础和在相间的可转移性,LSER模型在缺乏实验数据的数据贫乏系统中预测分
线性溶剂化能关系(Linear Solvation Energy Relationship, LSER)模型目前常用于预测化学品的物理化学性质,如分配系数、色谱保留因子和溶解度。由于其机理基础和在相间的可转移性,LSER模型在缺乏实验数据的数据贫乏系统中预测分配系数时尤为有价值。然而,其更广泛的适用性目前受到实验测定的溶质描述符(solute descriptors)可用性有限的制约。研究人员基于三种不同方法开发了三种模型,用于预测LSER应用中的溶质描述符S、E、A、B和L:(1)一种基团贡献模型(group contribution model),包含用于识别官能团作为结构模式的初始筛选算法;(2)一种K-最近邻模型(k-nearest neighbors model);(3)一种图卷积神经网络(graph-convolutional neural network)。所有模型均基于相同的精选数据集对每个溶质描述符进行开发。使用独立测试集评估整体模型性能,三种方法的均方根误差(rmse)范围为:A描述符0.08–0.13,B描述符0.10–0.15,S描述符0.17–0.23,E描述符0.09–0.19,L描述符0.25–0.45。通过实现直接从分子结构预测这些描述符,研究人员的建模框架解决了迄今限制LSER模型可扩展性和更广泛应用的关键瓶颈。此外,研究人员还研究了共识方法(consensus approach)是否能提升整体预测质量。另外,预测得到的溶质描述符被直接用于推导与环境和分析相关的分配系数,表明即使对于缺乏实验描述符数据或缺乏大属性特定训练集的化学品,基于LSER的可靠性质预测也是可行的。通过实现描述符的大规模生成,这项工作提升了LSER建模的实际适用性,并强化了其作为用于环境归趋和风险评估的可转移且数据高效工具的作用。
论文解读:基于多种机器学习方法的溶质描述符预测及其在LSER模型中的应用
研究背景与问题
线性溶剂化能关系(Linear Solvation Energy Relationship, LSER)模型是预测化学品物理化学性质(如分配系数、色谱保留因子和溶解度)的重要工具,其优势在于机理明确且在不同相体系间具有可转移性,尤其适用于实验数据匮乏的系统。然而,LSER模型的广泛应用受限于实验测定的溶质描述符(solute descriptors)数量有限——目前仅有约6300种化学品的完整描述符可用。现有预测方法包括基团贡献法(Group Contribution Approach, GCA)、人工神经网络(ANN)以及近期的大语言模型(LLM),但各方法在预测精度和适用性上仍存在局限。为此,研究人员旨在开发三种不同原理的模型(GCA、K-最近邻kNN、图卷积神经网络GNN),并比较其性能,同时探索共识方法(consensus approach)对预测质量的提升效果。该研究发表于《ACS Environmental Au》。
关键技术方法
研究人员使用了来自Abraham Absolv数据库(实施于LSERD在线数据库)的实验溶质描述符数据集,经过去重和筛选后包含6364种化学品(各描述符数据量不同:S描述符6364个,A 6358个,E 6347个,B 6111个,L 5572个)。数据集随机分为训练集(70%)、验证集(20%)和独立测试集(10%)。三种模型分别采用以下技术:(1)GCA模型基于Ertl等人定义的官能团识别方法,结合碳骨架和芳香性参数,通过线性组合优化贡献值;(2)kNN模型基于Kühne等人的方法,使用原子中心片段(Atom-Centered Fragment, ACF)计数的Jaccard距离识别最近邻,并对多阶ACF子模型预测进行加权求和;(3)GNN模型使用DeepChem库构建分子图,原子为节点、键为边,包含两个隐藏层(32和64神经元),采用ReLU激活函数和L1损失函数,对每个描述符独立优化超参数。所有模型均进行五折交叉验证,并生成共识模型。
研究结果
**3.1 化学空间覆盖**
通过UMAP非线性流形投影分析,具有实验溶质描述符的化学品主要集中于化学空间的中心区域,多为含一两个官能团的简单结构。复杂多官能团化合物位于边缘,表明LSER方法对复杂结构(特别是涉及分子内相互作用如氢键的化合物)的适用性有限。此外,离子型化学品不被LSER方法覆盖。
**3.2 溶质描述符数据集与数据密度**
各描述符值范围差异显著:A描述符0–2.50,B 0–4.26,E –1.18–4.62,S –0.89–4.80,L –0.82–27.44。A描述符数据集中60%的值为0,呈现明显不平衡。
**3.3 基团贡献法模型开发**
GCA模型基于五折交叉验证开发,最终共识模型在独立测试集上的均方根误差(rmse)为:A 0.12,B 0.14,S 0.23,E 0.19,L 0.42。预测可靠性通过官能团分解情况分为高、中、低三个置信等级。
**3.4 K-最近邻模型开发**
kNN模型使用90%数据训练,优化了最大ACF阶数、最近邻数、相似度阈值等超参数。在独立测试集上rmse为:A 0.13,B 0.15,S 0.22,E 0.13,L 0.45。通过密度结合偏差和分散度的方法评估预测可靠性。
**3.5 图卷积神经网络模型开发**
GNN模型经五折交叉验证,共识模型在测试集上rmse为:A 0.08,B 0.09,S 0.17,E 0.09,L 0.25。基于标准差(SD)划分预测可靠性(SD≤0.20为高可靠,SD≤0.40为中可靠,SD>0.40为低可靠;L描述符阈值分别为0.30、0.70、0.70)。
**3.6 三种模型性能比较**
GCA与kNN模型性能相近,GCA在A、B、L描述符上略优,kNN在S、E上略优。GNN模型在所有描述符上表现最佳,尤其L描述符rmse显著降至0.25(GCA 0.42,kNN 0.45)。趋势分析和子群分析表明,三模型均能正确捕捉实验数据中的物理化学趋势,但对复杂异构化合物预测性能下降。
**3.7 共识方法**
将GCA、kNN、GNN的共识预测值进行整合,通过标准差划分高、中、低置信度。高置信度预测的rmse明显降低:S 0.08,E 0.039,A 0.009,B 0.052,L 0.144。然而共识方法的中位数绝对差并不总是低于GNN,因GCA或kNN的误差可能拉低总体表现。进一步将预测的描述符应用于log K
ow、log K
oa、log K
wa、科瓦茨保留指数(KRI)和色谱疏水指数(CHI)的LSER方程预测,结果显示共识方法能提供稳定且相对准确的预测,但未显著优于单一GNN模型。
结论与讨论
研究人员开发了基于GCA、kNN和GNN的三种溶质描述符预测模型,并集成于PAULY软件(https://i-am-pauly.com/)中。三种方法可单独使用或组合为共识方法。研究表明,需注意共识预测中各模型个体误差对整体质量的影响,标准差可作为重要的质量指标。LSER方法最主要的局限性在于其适用域主要覆盖简单化学结构,且许多LSER方程基于不足200种化学品开发,进一步限制了适用范围。另外,离子型化学品的描述仍缺乏一致方法,未来可考虑通过神经网络直接预测溶剂化能或活度系数作为替代方案。尽管如此,该研究通过实现描述符的大规模生成,显著提升了LSER模型在环境归趋和风险评估中的实际应用价值。