《Analytical Chemistry》:2D-JCOG: Transforming 1D 1H NMR Spectra into J-δ Correlation Maps via the Shared Splitting Theorem and Graph Neural Networks
编辑推荐:
J-耦合常数及其相关的耦合网络在1H核磁共振(1H NMR)谱中编码了至关重要的结构信息,然而其自动化提取仍然具有挑战性。传统的多重峰分析依赖于一阶近似,该方法在谱图拥挤、杂质存在或强耦合条件下会失效,而迭代量子力学
J-耦合常数及其相关的耦合网络在1H核磁共振(1H NMR)谱中编码了至关重要的结构信息,然而其自动化提取仍然具有挑战性。传统的多重峰分析依赖于一阶近似,该方法在谱图拥挤、杂质存在或强耦合条件下会失效,而迭代量子力学(QM)方法则需要精确的初始估算且常常遭遇收敛问题。研究人员提出了2D-JCOG (J-COrrelation via Graph neural networks),这是一个深度学习框架,能够将一维1H NMR谱峰列表转化为二维J-δ关联图谱,以揭示耦合拓扑结构。该方法基于共享裂分定理(SST),该定理确立了耦合多重峰必须共享至少一个共同的裂分,而无论耦合强度如何。这一物理不变性为异构图神经网络(GNN)架构提供了归纳偏置,在该架构中,裂分候选节点通过基于SST的相似性边连接。该网络采用混合消息传递策略:带有物理感知边权重的Transformer风格注意力层通过学习基于量子力学一致性特征来门控连接,以验证SST伙伴;同时,均值聚合层从多重峰区域聚合层级上下文信息。在量子力学模拟谱图(具有精确的“真值”)上进行训练,该模型在不同光谱复杂度级别上实现了92-96%的召回率和82-91%的精确度。在GISSMO数据库的实验谱图上进行的验证显示,其召回率为91.9%,平均J值误差为0.113 Hz。2D-JCOG为经典多重峰分析提供了一种稳健的替代方案,将应用范围扩展至第一阶规则失效的中等耦合体系。虽然其并非旨在取代针对严重强耦合自旋体系的迭代QM方法,但它提供了自动化的J-耦合提取,并为常规谱图分析直接可视化耦合连接性。
核磁共振(NMR)波谱技术是解析分子结构的核心手段。传统上,解析
1H NMR谱中的自旋系统信息主要依赖于多重峰分析,该方法基于“n+1”规则等一阶近似准则,借助峰拾取或去卷积软件实现了一定程度的自动化。然而,这种方法存在内在局限:它在信号拥挤或存在强耦合效应(即化学位移差Δν与J耦合常数之比减小)时会失效,因为高阶相互作用会根本性地改变多重峰的结构,导致“n+1”规则观察到的谱线数目发生变化,标准分析算法无法准确解析底层的自旋系统。虽然基于量子力学(QM)谱图拟合的迭代方法理论上可以解析这些复杂特征,但其计算量巨大,且在缺乏精确初始估计时容易出现收敛失败。实验上,二维NMR技术(如E.COSY、二维J-分辨谱)可同时确定自旋系统拓扑和量化耦合常数,但通常因灵敏度低、采集时间长而较少用于常规结构分析流程。
针对这些局限性,研究人员开发了2D-JCOG这一新型谱图分析工具。其目标并非取代专门针对严重强耦合体系(如AA'BB')的迭代QM方法,而是作为传统多重峰分析的补充和更优替代方案。2D-JCOG的核心思想源于“J关联器”方法,该方法证明了系统性地检测跨多重峰的共享裂分可以实现耦合网络的自动化重建。这一思想建立在共享裂分定理(SST)这一基本原则之上:耦合的自旋必须共享至少一个共同的裂分幅度。原始的算法利用此概念生成了通过共享裂分连接化学位移的二维关联图谱。然而,由于数值巧合导致的无物理起源的假阳性相关,该概念的实际应用效果受到限制。深度学习的发展为克服这些局限性提供了理想框架。考虑到自旋系统天然类似于图结构,通过迭代消息传递操作的图神经网络(GNN)尤其适合此任务。2D-JCOG因此构建了谱图的异构图表示,旨在学习验证SST的裂分模式。通过直接编码诸如“近J值”边等物理约束,并通过整合边级物理特征的基于注意力的消息传递进行处理,该系统成功地区分了真实的标量耦合与谱图伪迹,即使在化学环境密集的情况下也能保持高精确度。近期,Schmid等人提出的MolDeTr框架旨在直接从一维
1H NMR谱中提取完整的自旋系统参数,解决完整的逆问题。而2D-JCOG追求的是互补的目标:构建覆盖整个谱图的全局耦合关联图,揭示标量耦合网络的拓扑结构。两种方法天然协同,因为2D-JCOG生成的耦合图可作为自旋系统拟合方法的先验约束,而MolDeTr等方法的详细解决方案则可细化关联图中的局部预测。
本研究使用了两个独立的数据源。对于模型训练和初步评估,研究人员从跨越多样化学空间的有机分子的预测自旋系统参数出发,通过量子力学模拟生成了约22,000张
1H NMR谱图。对于实验验证,使用了GISSMO数据库中的
1H NMR谱图,该数据库涵盖了超过1,000种小分子,主要是在400-600 MHz频率下采集的,并具有记录在案的样品条件。这些实验谱图使用Mnova软件自动处理:应用全局谱图去卷积(GSD)生成谱峰列表,并在分析前自动排除软件分类为溶剂信号、伪迹、化学位移参考标准(如TMS)以及杂质或
13C卫星峰等弱信号的峰。完整的实验数据处理和评估标准详见实验结果部分。以下子节描述了从谱峰列表到二维δ-|J|关联图谱的完整计算流程。
2D-JCOG方法将共享裂分定理(SST)转化为一个完整的计算框架,涵盖了从量子力学模拟构建训练数据以及将实验谱峰列表转化为二维δ-|J|关联图谱的推理流程。整个系统从谱峰列表开始的处理逻辑在训练和推理中完全相同。训练流程从量子力学模拟的谱图生成带标签的样本,其中所有化学位移和耦合常数的精确真值都是已知的。推理流程则通过六个相互关联的阶段处理实验谱峰列表:(i) 谱峰列表生成,即谱图去卷积从原始谱图中提取各个共振峰;(ii) 感兴趣区域(ROI)分割,将峰聚类到可能包含多重峰的区域中;(iii) 候选生成,在每个区域内枚举所有可能的裂分;(iv) 特征提取,编码局部谱图特征和支持SST的度量指标;(v) 图构建,将候选节点组织成明确表示SST关系的结构;(vi) GNN评分,训练好的神经网络在图上传播证据以评估每个候选节点,并产生带有置信度的δ-|J|关联。
训练数据集是2D-JCOG的基础,包含约22,000张量子力学合成的
1H NMR谱图。这些模拟求解完整的自旋哈密顿量,生成具有精确化学位移和耦合常数真值的合成谱图。输入的自旋系统来源于对跨越多样化学空间的有机分子的NMR参数预测。为应对过拟合预测参数系统性偏差的风险,每次基础模拟都复制并应用了±5%的随机扰动。为确保训练数据真实反映实验条件,使用全局谱图去卷积(GSD)生成谱峰列表,而非直接使用量子力学跃迁频率。该方法引入了真实的峰特征,包括实验工作流程中遇到的自然峰拾取不确定性。
推理流程从谱峰列表生成开始,将连续谱图转化为离散的共振峰集合。质量良好的谱峰列表是J-耦合分配的基础。2D-JCOG设计为可处理任何来源的谱峰列表,但最佳性能需要能够分辨部分重叠共振的去卷积算法。本研究使用了全局谱图去卷积(GSD)。从峰到裂分候选的阶段包括:通过强度归一化和噪声过滤,将峰聚类到感兴趣区域(ROI);在每个ROI内通过计算峰对之间的所有频率差,穷举式生成裂分候选。每个候选都基于组成峰强度分配几何权重。2D-JCOG采用“软SST”策略:保留所有满足基本物理约束的候选,将互惠伙伴证据编码为学习特征而非硬性过滤。通过贪心非极大值抑制(NMS)算法合并重叠候选,最终存活的候选节点构成传递给神经网络的图。
特征提取阶段为每个裂分候选表征一个综合特征向量,编码局部谱图属性、区域上下文和全局一致性度量。特征旨在捕捉提议耦合的物理合理性及其与SST的一致性。图构建阶段将特征丰富的候选组织成异构图,明确编码SST关系。图包含两种节点类型:候选节点(“圆形节点”)和ROI节点。两种边类型编码基本物理关系:成员边建立候选节点与父ROI之间的层级包含关系;相似性边(“SST边”)直接在图拓扑层面实现SST。相似性边携带物理感知的特征,编码潜在SST伙伴关系的质量。
图神经网络(GNN)评分阶段采用专门为耦合分配问题双重性质设计的架构:结合基于严格物理的SST一致性验证与多重峰层级上下文的层级聚合。对于编码潜在SST伙伴关系的相似性边,网络使用基于Transformer架构的图注意力层,将边特征直接整合到注意力计算中。对于候选节点与ROI之间的层级成员边,网络采用GraphSAGE风格的卷积与均值聚合。这种混合架构选择性地应用代价高昂的物理感知推理。残差连接和层归一化确保网络深度上的稳定梯度流动。训练采用混合目标函数,处理类别极端不平衡和问题的竞争性。在约22,000个量子力学模拟的训练集上进行训练。除了单模型配置,2D-JCOG还实现了集成方法,结合五个独立训练的模型。最终,管道为每个候选节点生成概率分数,代表其对应真实J-耦合的置信度。
研究结果表明,在不同的谱图复杂度级别下,单模型性能均表现优异:在默认阈值(τ=0.5)下,可处理、混合和挑战级谱图的召回率分别为91.68%、96.37%和95.97%,精确度分别为89.13%、84.66%和80.08%,伪阳性率均低于6%。深度集成性能相比单模型有一致提升:精确度提高1.5-2.0个百分点,伪阳性率降低约1个百分点。在模拟谱图示例中,对melosine-d的分析显示,模型以平均J值误差0.043 Hz和化学位移误差0.0009 ppm正确识别了全部22个真值耦合。在实验结果部分,对GISSMO数据库1060张谱图的评估显示,整体召回率为91.9%,精确度为86.4%,平均J值绝对误差为0.113 Hz,预测值与真值高度相关(R
2=0.998)。对强耦合芳香自旋系统(如联苯和N1-(2-噻吩甲基)苯磺酰胺)的案例分析表明,模型能够成功识别复杂的耦合模式,尽管在严重重叠区域可能出现冗余检测。对(S)-2-氨基-4-甲基戊烷-1-醇(Leucinol)的分析也展示了模型的有效性,但也揭示了因固定ROI聚类阈值导致的局限性。
讨论部分总结指出,2D-JCOG作为一种深度学习框架,成功地将一维谱峰列表转化为二维J-δ关联图谱,实现了标量耦合网络的可视化和提取。其核心创新在于将SST整合为指导异构GNN架构的基础物理约束。评估结果证明了该方法在常规谱图分析场景中的实用性和稳健性。研究承认存在一些局限性:预测可能聚类而非精确收敛;对严重强耦合体系(如AA'BB')的性能会下降;当前方法仅限于同核耦合。未来工作将致力于提高预测精度,通过优化候选合并策略以减少冗余检测,并探索将方法扩展到强耦合体系的可能性。总之,2D-JCOG作为现有NMR分析工作流程的有用补充,为大多数常规分析场景提供了自动化的耦合提取与直观的二维可视化。