基于注意力机制的自动色谱峰检测特征提取方法:学习识别峰形

《ACS Omega》:Learning to See Peaks: Attention-Based Feature Extraction for Automated Chromatographic Peak Detection

【字体: 时间:2026年05月31日 来源:ACS Omega 4.3

编辑推荐:

  可靠的峰检测仍然是体积排阻色谱(size-exclusion chromatography,SEC)中的关键瓶颈,因为信号重叠、基线漂移以及分析人员差异限制了结果的可重复性。由于SEC是常规放行与可比性分析中常用的方法,且其解释依赖于峰形态及其上下文,因此机器

  
可靠的峰检测仍然是体积排阻色谱(size-exclusion chromatography,SEC)中的关键瓶颈,因为信号重叠、基线漂移以及分析人员差异限制了结果的可重复性。由于SEC是常规放行与可比性分析中常用的方法,且其解释依赖于峰形态及其上下文,因此机器学习方法非常适合用于大规模提高结果重现性。该研究提出了峰特征提取器1(Peak Feature Extractor 1,PFE-1),这是一种一维(1D)仅编码器(encoder-only)Transformer,基于数百万条由模拟器生成的合成色谱图进行训练;该模拟器经过统计学标定,使其与来源于抗体及相关大分子物种的常规SEC数据相一致。PFE-1输出概率化区域预测与事件预测,随后通过透明的基于规则(rule-based)流程聚合为可解释的峰框(peak boxes)。研究人员在合成基准和整理后的真实SEC基准上对PFE-1进行了评估,报告了窗口层面的精确率、召回率与F1值,以及通过与常规工艺注释相一致的强度加权框损失(intensity-weighted box loss)衡量的框层面一致性。在这些评估中,PFE-1均优于卷积基线模型和基于导数的方法,且在更具挑战性的峰重叠和形态条件下优势最为明显。在合成数据上,PFE-1获得了显著高于两类基线的框层面一致性;在整理后的真实SEC基准上,PFE-1同样取得了最强的框层面一致性,同时不需要样本特异性输入(例如预期峰窗口)。该研究提供了一个可复现且可扩展的SEC专用色谱峰检测框架,可支持常规分析工作流程中更加一致的峰解释。
该论文发表于《ACS Omega》,围绕体积排阻色谱(size-exclusion chromatography,SEC)中自动峰检测这一长期制约分析效率与结果一致性的关键问题展开。SEC是生物药分析、尤其是抗体完整性与聚集体监测中的核心技术。尽管数据采集过程已高度自动化,但色谱图解释仍然是限制通量与重现性的瓶颈。造成这一问题的主要原因包括:峰信号相互重叠、基线漂移、噪声水平波动,以及分析人员依据经验进行垂线积分(vertical-line,VL)时产生的主观差异。传统基于规则的方法,例如Savitzky–Golay平滑结合导数滤波或曲线拟合,虽然具有可审计、计算快、便于部署等优点,但通常隐含要求基线稳定、峰形近似对称,且不存在明显拖尾、前伸或复杂重叠结构,因此在实际复杂SEC场景中容易漏检、误并峰或边界划分不稳定。相较之下,卷积神经网络(convolutional neural network,CNN)能够直接学习峰形,对噪声有更强容忍性,但其局部感受野难以充分利用长程上下文信息,对于肩峰与复杂重叠峰的判别仍然存在局限。因此,研究人员开展本研究,旨在构建一种兼具上下文感知能力、解释性以及与实验室常规积分实践相一致的自动峰检测方法。

研究人员提出了峰特征提取器1(Peak Feature Extractor 1,PFE-1),其核心是一种一维仅编码器Transformer模型。该模型面向SEC色谱信号,以时间点为单位同时输出两类结果:其一是区域类别,即非峰区、单峰区与碰撞区;其二是事件概率,即起始点、保留时间/峰顶、终止点与肩峰。随后,这些概率输出经过透明的规则聚合,被转换为符合垂线积分逻辑的峰框,从而实现自动化且可解释的峰识别。研究表明,PFE-1在合成数据和整理后的真实SEC基准上均优于导数法与CNN基线,尤其在峰重叠更严重、峰形变化更复杂的条件下表现出更大优势。该研究的重要意义在于,提出了一个面向SEC常规分析场景、具有可扩展性和可复现性的自动峰检测框架,可望提升常规放行分析、可比性研究及高通量筛选中的一致性与标准化水平。

在技术方法方面,研究人员首先分析了2021年至2024年间采集于Roche Innovation Center Munich(RICM)的648,000条匿名化常规SEC色谱图,并经系统质量控制筛选出104,000条具有一致元数据和可靠注释的色谱图用于统计标定;另构建了412条经专家复核、形态复杂且共识度高的真实SEC基准用于评估。随后,研究人员基于真实数据中峰形、噪声、峰间距和基线漂移分布,建立统计学校准的合成模拟器,生成带完整标签的大规模固定长度训练窗口。模型采用融合Time2Vec位置编码与索引编码的一维Transformer编码器,以AdamW优化器进行训练,并使用步进衰减学习率与早停策略。评估时,将滑窗预测经Hann tapering与规则后处理合并为全长色谱峰框,并采用归一化强度加权框损失(Box-Loss)及窗口层面精确率、召回率和F1值进行综合评价,同时以95%自助法置信区间(bootstrap confidence interval,CI)和多重比较校正分析稳健性。

一、Hyperparameter Optimization and Model Evaluation
该部分主要说明PFE-1的超参数优化过程及最终模型配置。研究人员通过多阶段Sobol采样搜索、固定网格比较、消融分析以及随机种子敏感性评估,确定了兼顾性能、效率和向真实SEC迁移能力的配置。最终模型包含8层编码器、8个注意力头、256维嵌入宽度、2048维前馈隐藏层,并将dropout仅施加于注意力路径中。结果显示,学习率、权重衰减、模型深度、注意力头数及数据规模之间存在较窄的稳定收敛区间。随着训练数据扩展到300万合成窗口以上,性能提升趋于边际化;进一步扩大模型容量虽然增加参数量,但并未带来相称收益,反而提高了结果方差。因此,研究人员将最终模型选择在性能平台区间内最稳健的配置,而非盲目追求更大参数规模。该部分结论表明,PFE-1的有效性依赖于合理的容量、正则化与优化器设置组合。

二、Ablation Studies
该部分通过控制变量实验分析编码策略与激活函数对模型性能的影响。结果显示,Time2Vec编码相较固定索引编码带来了最显著的提升,在事件级F1和区域级F1上均有明显优势,说明周期性和时间上下文信息对于SEC峰检测尤为关键。进一步比较发现,将位置编码与信号嵌入进行拼接(concat)优于直接相加(add),提示保留不同编码来源的独立表示更利于模型学习复杂峰形关系。激活函数方面,编码器内部采用GELU优于ReLU和SiLU,而输出层激活函数对性能没有可测量影响。通过方差分析和多重校正后的非参数检验,研究人员证实这些差异具有统计学意义。该部分结论说明,PFE-1性能提升不仅来自Transformer结构本身,也与其专门面向色谱时间结构设计的编码方式有关。

三、Encoding Strategy
这一小节具体聚焦于输入编码。研究人员发现,引入Time2Vec能够显著提升事件识别和区域分类性能,是所有消融因素中影响最大的变量。其原因在于SEC色谱图中的保留时间模式具有明显时序依赖与重复性,Time2Vec通过正弦分量编码这些规律,使模型更好地把握峰位置与上下文结构。与此同时,拼接式融合优于加和式融合,说明模型受益于保留时间编码与索引编码的互补信息。由此可见,位置与时间表示在一维色谱信号建模中并非附属因素,而是支持峰识别的重要结构信息来源。

四、Activation Functions
该小节说明不同非线性函数对模型表现的影响。实验结果表明,在编码器中采用GELU可稳定获得最高的事件级与区域级F1值,优于ReLU和SiLU;而输出层激活函数对最终性能影响不显著。研究人员据此认为,编码器内部非线性变换对复杂峰形与上下文特征建模更为关键。该部分从另一个角度支持了PFE-1架构设计的合理性。

五、Benchmark Results on Synthetic Data
该部分在全标签合成数据集上比较了PFE-1、CNN基线和Savitzky–Golay(SG)导数法。结果显示,在框层面一致性方面,PFE-1的归一化Box-Loss达到0.953 ± 0.008,明显优于CNN的0.842 ± 0.007和SG的0.339 ± 0.026。在窗口层面区域分类中,PFE-1几乎达到完美表现,F1 = 0.986,精确率 = 0.986,召回率 = 0.987,显著高于CNN和SG。在事件检测方面,PFE-1同样获得最高总体事件F1 = 0.412以及最高事件召回率 = 0.988;CNN则表现出明显的高召回、低精确率倾向,说明其容易过度激活;SG整体最弱,仅能较好恢复最显著峰,面对噪声变化和复杂峰形时性能明显下降。结合定性结果,PFE-1产生的区域概率和事件分布更加尖锐且内部一致,更利于后续规则聚合。这说明基于自注意力(self-attention)的长程依赖建模,能够更好地区分基线、单峰和碰撞区,并更稳健地定位峰事件。

六、Benchmark Results on Real Data
该部分检验模型向实验SEC数据迁移的能力。研究人员将窗口级预测通过同样的规则聚合为峰框,并在整理后的真实SEC基准上以归一化强度加权Box-Loss进行评估。结果表明,PFE-1在真实数据上的Box-Loss为0.928 ± 0.003,优于CNN的0.893 ± 0.004和SG的0.873 ± 0.005,依然保持最佳表现。文中还设置了由12名分析人员对15条SEC色谱图独立标注的读者研究,分析人员共识值为0.99 ± 0.01,用作人工一致性的参考背景。研究人员指出,真实数据中学习型模型之间的差距小于合成数据,说明迁移性能不仅取决于架构本身,也取决于合成训练分布、注释风格和重建规则与真实评测场景的一致程度。此外,该真实基准以低噪声、主峰明显、伴随较弱卫星峰的色谱图为主,虽具有实际分析相关性,但尚不能覆盖所有SEC复杂情形。该部分结论表明,PFE-1能够在不依赖样本特异性输入的情况下,对真实SEC色谱图实现高水平峰检测与边界划分。

七、Advantages and Limitations
该部分总结了方法优势与局限。优势方面,PFE-1在合成与真实数据上均取得最佳框层面一致性;与许多集成于软件中的工具不同,它不需要输入预期峰窗口等样本特异性信息,可通过窗口化推理处理不同峰数和不同长度的色谱图;同时,其输出为可解释的概率形式,并可通过透明规则转化为峰框。与CNN相比,PFE-1在区域一致性和事件定位方面都更强。局限方面,PFE-1参数量和计算开销高于基线,需要更多硬件资源与训练时间;全长色谱预测依赖规则后处理而非端到端训练,训练目标与评价目标之间可能存在错配;尽管合成训练分布经过统计标定,但仍只是对常规条件的近似,真实与合成窗口在信噪比、峰宽和标签碎片化方面仍存在结构性域偏移(domain shift)。此外,模型最优表现出现在较窄的超参数稳定区间内,说明其部署与迁移仍需谨慎调优。

综合讨论部分,论文表明,SEC自动峰检测的难点在于峰形多样性、重叠结构、基线漂移以及人工积分规则带来的不确定性。研究人员通过构建与真实数据统计特征一致的合成模拟体系,将真实样本注释不足的问题转化为可大规模监督学习的问题,再借助Transformer的长程依赖建模能力,实现了比传统导数法和CNN更高的一致性与更好的复杂形态适应性。尤其值得注意的是,PFE-1并未直接输出最终积分结果,而是先输出区域与事件这两类中间特征,再通过显式规则重建峰框,这种“特征优先”的设计兼顾了模型性能与实验室可解释性要求。论文同时也清楚指出,该框架当前验证范围主要集中于整理后的SEC场景,未来仍需在噪声更强、重叠更密集、注释更异质的常规数据集上进行前瞻性扩展验证。总体而言,这项研究为色谱峰检测提供了一个兼具机器学习性能、方法透明度与实验实践一致性的专用框架。

研究结论部分可概括翻译如下:研究人员提出了PFE-1,这是一种面向SEC色谱图的一维仅编码器Transformer。该模型在数百万条经统计学校准模拟器生成的合成色谱图上训练,并通过概率化区域与事件输出结合透明规则聚合,生成可解释的峰框。在合成基准和整理后的真实SEC基准上,PFE-1均优于卷积基线和Savitzky–Golay(SG)导数基线,且在更具挑战性的峰重叠和复杂形态条件下优势更加明显。该框架无需样本特异性输入,能够支持常规分析流程中更一致、更可复现的SEC峰解释。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号