利用优化的降维技术与深度学习分类框架检测急性淋巴细胞白血病和急性髓系白血病
《Current Research in Translational Medicine》:Detection of Acute Lymphocytic and Myeloid Leukaemia with Optimized Dimensionality Reduction and Deep Learning Classification Framework
【字体:
大
中
小
】
时间:2026年06月18日
来源:Current Research in Translational Medicine 3
编辑推荐:
Mohamudha Parveen Rahamathulla|Shtwai Alsubai|Mohemmed Sha英国伦敦罗汉普顿大学生命与健康科学学院摘要白血病是一种致命疾病,影响着全球大量人群。急性淋巴细胞白血病(ALL)和急性髓系白血病(AML)是常见的白血病类型,其中A
Mohamudha Parveen Rahamathulla|Shtwai Alsubai|Mohemmed Sha
英国伦敦罗汉普顿大学生命与健康科学学院
摘要
白血病是一种致命疾病,影响着全球大量人群。急性淋巴细胞白血病(ALL)和急性髓系白血病(AML)是常见的白血病类型,其中AML多见于老年人,而ALL则多发生在儿童身上。因此,该研究采用GMLP-MLDA(结合改进线性判别分析的全球化多层感知器)算法,通过基因表达数据集来检测ALL和AML。虽然线性判别分析在降维方面表现较好,但它也存在一些局限性,比如难以处理高维数据、样本量较少以及特征值较高等问题。为优化传统线性判别分析,该系统采用了带有协方差的优化费希尔准则。该系统中的分类任务由多层感知器承担,因为它能够处理输入与输出之间的非线性复杂关系。为进一步提升多层感知器的性能,该系统还使用了全局特征关联样本。该系统使用的基因表达数据集包含了白血病患者的基因数据,用于分析白血病病情。该系统的性能通过与决策树、K近邻算法以及XGBoost三种分类器进行内部比较来评估。此外,还对比了传统线性判别分析与改进后的版本,以展现所提出的降维方法的效率。实验结果表明,该系统的准确率达到了95%,充分证明了其在医学和分子生物学领域的应用潜力,有助于提升白血病诊断的准确性,进而提高患者生存率。
引言
在全球范围内,白血病是一种威胁生命的疾病[[1], [2], [3]],它会给许多人的生命带来危害,并导致极高的死亡率[4]。这类癌症主要影响白细胞、骨髓和红细胞等特定细胞,会在人体内产生大量原始细胞[5]。这些异常的原始细胞会引发一系列危险症状,如发热、容易出血、淋巴结肿大、反复流鼻血、过度出汗等。白血病的严重程度[6,7]则取决于疾病的阶段、白血病类型以及患者的具体状况[8]。白血病最初起源于负责生成细胞的骨髓,其中的髓母细胞或髓系原始细胞会发展成各种特殊类型的细胞,比如白细胞。但在白血病情况下,这些细胞无法发育成成熟的白细胞。白血病有多种类型,其中ALL和AML是最常见的两类[9]。在各类白血病中,AML多见于老年人,而ALL则多发生在儿童身上。AML是由于骨髓中积累了大量原始细胞所致,而ALL则是由于骨髓中被过多的未成熟细胞占据。不过,早期诊断有助于减轻患者的病情。因此,需要有效的白血病筛查手段来避免未来出现更严重的后果[10]。
相应地,AML则是由于原始细胞未能成熟并在骨髓中堆积所导致的。当这些未成熟细胞数量过多时,它们会从骨髓进入血液循环。而在ALL的情况下,是骨髓中被过多的未成熟细胞占据,这通常是因为身体产生了过量的淋巴细胞。白血病还会引发弥漫性血管内凝血这一严重病症,即血液中的血管会出现异常凝血现象。图1展示了AML和ALL的形成过程。
传统上,白血病筛查依赖经验丰富的医生,他们通过血液检测和活检等手段来判断患病可能性。这种筛查方式成本高昂、耗时较长,且容易出错,还依赖于人工操作。为了解决这些问题,需要借助技术手段来提高筛查效率。人工智能能够加快医疗领域的各项流程,为医生在疾病筛查和诊断过程中提供支持。尽管已有不少传统模型试图提升白血病的分类精度,但那些传统方法在处理大规模数据集和进行复杂计算时仍存在诸多局限。
为解决上述问题,该研究提出了基于MLPA-MLP的算法,通过基因表达数据集来检测AML和ALL。首先,系统会对输入数据进行标签编码,将分类变量转换为数值形式。之后,这些数据会经过结合优化费希尔准则与协方差的改进线性判别分析处理,从而将数据降维为1维,为后续检测做好准备。接着,数据会被分为测试集和训练集。为了进一步评估所提出模型的性能,还会使用决策树、K近邻算法以及XGBoost等传统算法进行分类处理,并与所提模型进行对比。此外,还对比了传统线性判别分析与改进后的版本,以凸显所提出的降维方法的更高效率。最后,通过各项评估指标来衡量所提系统的性能。
将MLPA与多层感知器结合用于AML和ALL检测,其主要目的是针对高维、小样本数据的局限性,重点解决降维、类别可分性以及非线性分类等问题。
- •
利用GMLP-MLDA算法,通过基因表达数据集检测ALL和AML。
- •
运用线性判别分析实现降维,提升所提系统的性能。
- •
采用结合全局特征关联样本的GMLP算法进行分类,以提高系统的速度和准确率。
- •
通过各项评估指标来衡量所提系统的实际效率。
章节节选
文献综述
本节介绍了用于发现ALL和AML的一些传统技术以及现代模型,同时也分析了现有分类和回归模型存在的不足之处。
拟采用的方法
白血病是一种致命疾病,会损害患者的骨髓或血液细胞。ALL和AML是最常见的白血病类型,二者都导致了全球大量死亡病例。在AML情况下,骨髓会产生大量的髓母细胞、血小板和红细胞;而在ALL情况下,则是骨髓中产生了大量淋巴细胞。不过,尽早进行治疗可以降低疾病的严重程度,因此建立早期的疾病识别系统十分重要。
探索性数据分析
探索性数据分析用于了解和查看数据集。本研究使用的数据集包含了72名ALL和AML患者的基因表达水平信息,涵盖了7128个基因在这两种白血病中的表达情况。图4展示了所提系统中各类别标签的数量分布情况。
图4显示了基因表达数据集中的标签数量分布,其中0代表ALL,1代表AML。从图表中可以看出,ALL相关的数据数量更多。
结论
白血病是一种致命疾病,影响着全球众多患者。ALL和AML是最常见的白血病类型,AML多见于老年人,而ALL则多发生在儿童身上。快速检测这种疾病对于早期诊断、避免后续严重后果至关重要。传统的白血病筛查方式耗时久、成本高,而且需要专业医生操作。如今,有一些传统技术开始借助机器学习、深度学习等科技手段来实现更高效的筛查。
伦理审批与参与同意
由于本研究没有涉及任何人类参与者、患者数据或可识别的生物材料,因此无需进行伦理审批,也不需要机构审查委员会的批准。
数据可用性
由于本研究并未生成任何数据集,因此不存在数据共享的问题。
作者贡献说明
Mohamudha Parveen Rahamathulla(通讯作者):负责研究设计、结果验证、手稿的最终修订、与相关方的沟通以及手稿的最终批准工作。
Shtwai Alsubai:负责文献综述、数据解读、手稿审核以及整体研究指导工作。
Mohemmed Sha:负责研究概念的构建、方法设计、数据收集与分析,以及手稿的撰写和编辑工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号