用于拉曼光谱胶质母细胞瘤分类的机器学习

《Journal of Chemometrics》:Machine Learning for Raman Spectroscopy Glioblastoma Classification

【字体: 时间:2026年05月28日 来源:Journal of Chemometrics 2.1

编辑推荐:

  本研究对利用拉曼光谱数据进行胶质母细胞瘤细胞分类的多种计算模型进行了全面评估。研究人员将支持向量机(SVM)、Boosting和随机森林(RF)等传统机器学习方法,与卷积神经网络(CNN)、视觉Transformer(ViT)和广度学习系统(BLS)等较新的方

  
本研究对利用拉曼光谱数据进行胶质母细胞瘤细胞分类的多种计算模型进行了全面评估。研究人员将支持向量机(SVM)、Boosting和随机森林(RF)等传统机器学习方法,与卷积神经网络(CNN)、视觉Transformer(ViT)和广度学习系统(BLS)等较新的方法进行了比较。结果发现,卷积神经网络(CNN)是该数据集上最成功的模型;当进行一定的特征归一化时,其性能最佳,但不需要采用背景漂移去除等预处理方法。研究还发现,数据增强并未提高性能,这一点与该领域其他已发表工作相反。
该文发表于《Journal of Chemometrics》,围绕拉曼光谱(Raman spectroscopy)在胶质母细胞瘤(glioblastoma)分类中的机器学习应用展开,核心目标是系统比较多类传统与现代计算模型在复杂拉曼谱数据上的识别效果,并进一步评估预处理、特征标准化与数据增强对模型性能的影响。研究背景在于,癌细胞的早期、准确识别对于治疗干预和预后改善至关重要,而拉曼光谱作为一种非侵入性光学检测技术,能够提供样本分子组成与结构层面的“指纹”信息,因此在肿瘤识别和疾病分类中具有重要潜力。然而,细胞拉曼谱通常由多种分子振动信号叠加形成,同时受拉曼散射信号本身较弱、仪器限制、荧光背景及随机波动等因素影响,往往呈现高噪声、高维度和复杂非线性特征。对于这类“特征数可能多于样本数”的数据,常规分析方法与部分传统机器学习方法会面临维度灾难、过拟合和稳定性不足等问题,因此需要系统比较不同算法在实际任务中的适用性。

现有研究虽然已广泛将支持向量机(SVM)、随机森林(RF)、XGBoost、线性判别分析(LDA)及多种深度神经网络应用于拉曼光谱癌症分类,但仍存在若干不足:其一,针对Transformer模型在癌症拉曼分类中的研究较少;其二,尚缺乏对广度学习系统(BLS)的相关评估;其三,针对胶质母细胞瘤拉曼分类的专门研究仍然有限;其四,部分文献报道卷积神经网络(CNN)在降维后输入上的表现优于原始全谱输入,这与CNN在高维原始数据表示学习中的通常优势并不一致。基于此,研究人员开展本项工作,意在直接填补前三项空白,并通过实验间接说明CNN在完整拉曼谱输入上的能力。

在技术方法方面,研究采用既有拉曼光谱数据集,样本来源于University of Otago化学系与病理学系此前采集的数据,包括3种人胶质母细胞瘤细胞系、3名健康供者来源的单核细胞(monocyte)与T细胞(T-cell)。研究比较了SVM、AdaBoost、XGBoost、Gradient Boost、RF、决策树、逻辑回归、K近邻(KNN)、1D卷积神经网络(1D-CNN)、1D视觉Transformer(1D-ViT)和BLS。预处理分为单样本中值滤波、airPLS基线漂移校正及跨样本特征标准化;并采用加性高斯白噪声(AWGN)进行数据增强。模型评估主要基于分层五折交叉验证,部分增强实验采用10次80/20分层划分;深度模型与BLS的部分超参数通过Optuna优化。

研究首先在“细胞区分”任务中比较T细胞、单核细胞与胶质母细胞瘤细胞系的分类性能,并系统分析不同预处理条件和是否增强数据的影响。结果表明,在所有测试模型中,1D-CNN总体表现最优,且统计学上显著优于ViT;ViT又优于XGBoost与BLS,XGBoost和BLS优于RF。这一结果说明,在该拉曼数据集上,卷积结构比Transformer结构和多数传统方法更能有效提取具有判别力的谱学模式。研究还指出,深度学习模型在未进行特征标准化时性能明显较差,而加入特征标准化后性能显著改善,说明输入数值范围控制对神经网络训练稳定性至关重要。相反,背景处理相关预处理,即尖峰噪声抑制和基线漂移校正,并未带来预期收益;对某些模型甚至产生不利影响。由此可见,对于该任务,特征标准化比传统拉曼谱背景校正更关键。

在数据增强方面,研究采用随机信噪比的AWGN为每个训练样本生成10条增强谱,原本预期有助于提高模型鲁棒性和泛化能力。但统计检验显示,增强仅对SVM与KNN带来显著改善,而对CNN、ViT等模型并未产生显著收益;对BLS甚至造成显著下降。同时,增强还显著增加了CNN和ViT的训练时间。该结果与部分既有文献的经验并不一致,提示对拉曼光谱而言,简单的高斯噪声增强未必能够产生有效的类别边界信息。论文据此强调,数据增强的有效性需要结合谱数据特征谨慎判断,不能简单套用计算机视觉领域的经验。

在结果解释层面,研究利用GradCAM++对CNN模型倒数第二层进行特征重要性分析,识别出多个关键波数区域,包括760、1000、1150、1450和1660 cm-1等。研究指出,这些区域分别与核酸、蛋白质、脂质、苯丙氨酸(phenylalanine)和酰胺I(amide I)等分子特征相关,虽然并不一定对应最强拉曼峰,但在分类中具有较高注意力权重。对胶质母细胞瘤细胞的平均特征重要性分析进一步显示,模型重点利用了与脂肪酸、胆固醇、膜脂、核酸骨架以及蛋白相关的谱学特征,提示肿瘤细胞分类与脂质信号增强及蛋白、核酸组成变化密切相关。对于单核细胞与T细胞,模型关注的关键波数则分别偏向DNA骨架、脂质相关振动以及色氨酸、酪氨酸、蛋白和类胡萝卜素相关特征。这一结果支持CNN不仅能实现准确分类,还能在一定程度上反映不同细胞类型的生物分子差异。

在后续实验中,研究基于实验1的结果,选定未增强数据上的CNN用于实验2—4,以评估是否能够区分基因修饰后的细胞状态。研究对象包括胶质母细胞瘤细胞本身,以及暴露于肿瘤条件培养基(tumour-conditioning media, TCM)的单核细胞和T细胞。研究重点考察CD73与ZEB1敲低(shCD73、shZEB1)、野生型(WT)和pLKO.1空载体对照之间的差异。该设计的理论依据在于,ZEB1和CD73均与胶质母细胞瘤侵袭性增强、治疗耐受及肿瘤免疫微环境调节密切相关,因此若拉曼光谱能够检测到这些分子层面的变化,则具有潜在的术中决策和生物标志物价值。

实验2显示,在胶质母细胞瘤细胞系内部区分WT、pLKO.1、shCD73和shZEB1时,CNN达到0.72的平均准确率,精确率、召回率和F1值分别为0.68、0.66和0.66。这说明单个基因表达变化所导致的表型差异,虽然比“肿瘤细胞与免疫细胞”之间的大类差异更难识别,但仍可通过拉曼光谱实现中等水平的稳定区分。实验3进一步表明,对于暴露于不同肿瘤条件培养基的单核细胞,模型平均准确率达到0.77,F1值为0.77,提示肿瘤细胞中CD73或ZEB1表达状态的变化,能够通过分泌环境影响免疫细胞并被拉曼信号捕捉。实验4中,T细胞相关分类表现最佳,平均准确率达到0.85,精确率与F1值分别为0.85和0.84,表明T细胞对肿瘤条件培养基变化的拉曼响应更易于识别。这些结果共同说明,拉曼光谱不仅能表征肿瘤细胞本身的分子特征,还能够感知肿瘤—免疫相互作用引起的细微分子改变。

实验5引入公开细菌分离物数据集,对前述结论进行了外部场景验证。该任务包含30个类别,难度更高,结果表现出更大的模型间变异性。值得注意的是,在这一数据集上,逻辑回归的名义表现略优于CNN,并明显优于ViT和BLS。论文据此指出,不同拉曼任务的数据结构差异较大,不能假定某一种模型在所有问题上都占优,因此在具体应用中仍有必要进行多模型比较。不过,即使未针对该数据集重新大规模优化超参数,CNN仍然维持了较好表现,说明其具有较强的可迁移性。

讨论部分围绕预处理、模型选择和数据增强的实际意义展开。研究认为,背景校正并非该类拉曼分类任务中的决定性步骤,尤其对XGBoost、逻辑回归、CNN和ViT等模型,基线漂移校正甚至可能削弱性能;而特征标准化则是深度学习模型成功的关键条件。与Transformer在自然语言处理和计算机视觉中常见的优势不同,本研究中1D-CNN在胶质母细胞瘤拉曼分类上明显优于1D-ViT,而且训练与推理效率更高,约快一个数量级。BLS虽然训练速度快,表现也达到传统强基线水平,但对预处理更敏感,参数调优需求更高,因此未显示出相对XGBoost的明确优势。研究最终指出,拉曼光谱是胶质母细胞瘤分类的可行手段,1D-CNN在该数据集上准确率超过87%,优于包括ViT和BLS在内的所有其他测试模型。

结论部分可概括为:研究表明,拉曼光谱可用于胶质母细胞瘤细胞分类,1D卷积神经网络(1D-CNN)在所测试模型中表现最佳,优于视觉Transformer(ViT)和广度学习系统(BLS);适度的特征标准化能够显著提升深度模型性能,而尖峰噪声和基线漂移校正并非必要步骤;加性高斯噪声数据增强未带来稳定收益。研究还证明,单个基因表达降低所引起的微小分子变化不仅可在胶质母细胞瘤细胞中被拉曼光谱检测,也可在仅接触肿瘤条件培养基的免疫细胞中被检测到,突显了该技术在术中诊断、治疗监测、预测性生物标志物开发和个体化治疗选择中的潜在价值。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号