提升癌症护理水平:运用专家系统与文本挖掘技术进行恶病质预测分析
《Biomedical Signal Processing and Control》:Empowering cancer care: harnessing expert systems and text mining for predictive analysis of cachexia
【字体:
大
中
小
】
时间:2026年06月18日
来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
法里巴·扎雷安|萨巴·萨雷米尼亚|雷扎·索卢基
伊朗伊斯法罕,伊斯法罕理工大学工业与系统工程系
**摘要**
**目的**:恶病质是癌症中常见且严重的并发症,会显著降低患者的生活质量及治疗效果。早期准确检测对于及时采取干预措施至关重要。本研究在居家肿瘤护理环境中,运
法里巴·扎雷安|萨巴·萨雷米尼亚|雷扎·索卢基
伊朗伊斯法罕,伊斯法罕理工大学工业与系统工程系
**摘要**
**目的**:恶病质是癌症中常见且严重的并发症,会显著降低患者的生活质量及治疗效果。早期准确检测对于及时采取干预措施至关重要。本研究在居家肿瘤护理环境中,运用机器学习与自然语言处理技术,评估将门诊记录中的文本特征与结构化临床数据结合使用在早期恶病质检测中的价值。
**设计、方法与途径**:本研究采用了两种分析方案:(1)仅使用结构化数据;(2)结合结构化数据与从非结构化门诊记录中提取的文本特征。这些特征通过自然语言处理从电子健康记录中提取。在方案二中,还加入了25个由专家确定的特征。研究采用了包括XGBoost、逻辑回归、决策树、朴素贝叶斯、随机森林、支持向量机、K近邻算法、深度学习模型以及集成模型(VOTE)在内的多种机器学习算法,并通过10折交叉验证进行评估。为解决类别不平衡问题,还使用了SMOTE方法,并与基准模型进行了对比测试。同时分析了模型的性能与可解释性,通过SHAP分析确定了文本特征中最具预测价值的因素。
**研究结果**:在两种方案中,文本特征都提供了补充性的预测信息。在方案二中,VOTE集成模型的ROC-AUC值为85.5%,而XGBoost模型的PR-AUC值为62.7%。对于表现最好的两种模型而言,加入文本特征后,其PR-AUC分别提升了约13.8%,ROC-AUC提升了约12.8%,相比仅使用结构化数据的效果更为显著。SMOTE并未提升预测性能,反而引入了噪声,未能产生具有临床意义的信号。SHAP分析与正向特征选择结果表明,大部分最具预测价值的因素来自门诊记录的文本内容,这为在早期风险评估中利用叙述性线索的临床有效性提供了依据。
**创新点与贡献**:本研究证明了在居家肿瘤护理环境中,将文本挖掘得到的特征与结构化临床数据结合用于早期恶病质风险评估的实际价值。所提出的框架可为波斯语临床环境中的类似应用提供参考,不过仍需进行外部验证并适配其他场景。
**局限性与时限性**:本研究的结果基于单一队列数据,需在其他类型的癌症、不同的护理环境以及不同语言背景下进行外部验证,以确认其普遍适用性。虽然该系统可通过仪表板实现应用,但需谨慎整合到临床工作流程中。
**实际意义与社会影响**:早期准确预测恶病质有助于制定临床决策、优化资源分配,并为居家肿瘤护理服务中的患者提供更好的支持,从而可能改善这一弱势群体的治疗效果。
**引言**
癌症仍是全球主要的死亡原因之一,2022年全球新增癌症病例约2000万例,预计到2050年这一数字将超过3500万例。这种复杂的疾病常常引发一系列并发症,严重影响患者的整体健康状况。其中,恶病质是一种极为严重的综合征,其特征为体重急剧下降、肌肉萎缩以及体力衰退[1]。恶病质不仅会削弱患者承受治疗的能力,还会带来严重的心理困扰,加剧患者的无助感与绝望情绪。生理变化与心理后果之间的相互作用形成了一个恶性循环:身体状况的恶化会进一步加重心理健康问题,最终导致患者生活质量下降[2]。针对癌症带来的各种复杂并发症,尤其是恶病质及其对身心健康的双重影响,对于改善患者预后具有重要意义。
恶病质是一种与恶性肿瘤相关的复杂代谢综合征,其特征为肌肉和/或脂肪量减少,通常伴有食欲不振、炎症、胰岛素抵抗以及蛋白质代谢加速等现象[3]。该综合征会显著改变癌症患者的体貌、体力以及情绪状态。恶病质的病理生理机制涉及代谢紊乱、全身性炎症以及激素变化等多种因素的相互作用。由于这些因素之间存在复杂的交互作用,准确诊断并识别导致恶病质的各种因素面临巨大挑战,这既增加了预测的难度,也提升了管理的复杂性[4][5]。
恶病质会对许多癌症患者的健康状况造成严重影响,表现为持续体重下降、食欲减退、身体功能受损以及整体生活质量降低[6][7]。其在不同阶段的患病率从诊断时的40%上升至晚期的70%,对患者的生存率与死亡率有着重要影响。有研究表明,多达20%的癌症患者可能直接死于恶病质[8][9][10][11]。此外,恶病质还会降低抗癌治疗的疗效。如果未能及时给予治疗,或为并非真正处于高风险的患者提供治疗,那么针对恶病质的治疗往往收效甚微[12]。为了最大限度地提升治疗效果,干预措施应尽可能早地开始,理想情况下是在恶病质完全发作之前,即所谓的“前恶病质”阶段[13]。“前恶病质”是恶病质分期系统中的初始阶段,随后会发展为真正的恶病质,最终可能演变为难治性恶病质。在癌症患者接受初始治疗后,恶病质的危害会更加明显,尤其是在那些处于疾病晚期的患者中。随着疾病的进展以及治疗效果的减弱,与恶病质相关的代谢变化会严重威胁患者的生存率与生活质量,因此对其管理已成为全面癌症护理中的关键环节[1]。
当前的趋势是越来越多地倾向于为晚期患者提供居家护理。居家护理能让患者继续生活在家人身边,为其营造出支持性的环境[14]。同时,它也是一种成本效益较高的护理模式,能够提升患者及其家属的满意度[15]。然而,护理地点的不同会显著影响无法治愈的癌症患者的生活质量。由于不良的预后状况会使护理需求更加复杂,因此症状管理对于提升患者及其家属的生活质量至关重要[16]。与住院护理相比,居家护理环境的监管力度相对较弱,这增加了并发症延迟发现的风险。因此,采用文本挖掘与机器学习等创新方法,对于早期发现并干预恶病质病例具有重要意义。
在居家肿瘤护理中,持续监测较为有限,诸如每日体重或系列实验室检测之类的结构化数据往往难以获取。因此,定期随访时记录的临床描述可能成为最早出现预警信号的来源。不过,目前针对波斯语病历的自动化分析仍较少被研究。本研究正是为填补这一空白而开展的,它将基于规则的波斯语病历文本挖掘技术与传统的结构化数据相结合,旨在探究是否仅通过文本线索,或结合结构化变量,就能实现早期恶病质风险的检测。
在医学研究中,从电子患者记录中提取文本特征并进行特征提取的应用日益增多,这些应用涵盖心血管疾病诊断[17]、癌症患者分类及EGFR/ALK突变检测[18],以及癌症患者和糖尿病患者的临床症状提取(如疼痛、疲劳、睡眠障碍等)[19]。此外,这类技术还被用于重症监护病房患者的院内死亡风险预测[20],以及HIV感染可能性分类[21]。尽管这些应用已经证明了非结构化数据在风险预测方面的价值,但其应用主要集中在患者再入院风险分析[22]、患者主诉分析[23]以及癌症患者评估[24]等领域。相比之下,针对居家护理中的癌症患者这一特殊群体,专门研究如何预测恶病质——这种具有严重危害且对预后具有重要影响的综合征——的研究仍然十分匮乏。
本研究正是为弥补这一不足而开展的,它致力于开发一种智能专家系统,用于在这一脆弱群体中实现恶病质的早期检测。在居家护理环境中,由于持续监测有限,且门诊记录中的丰富临床描述往往未被充分利用,因此早期检测的难度尤为突出。目前,用于癌症相关风险预测的数据驱动方法大多依赖于结构化的临床与实验室数据,即便使用了文本数据,也通常采用通用的自然语言处理流程,从而未能充分发挥领域特定的、基于规则的文本线索的作用。为打破这一局限,本研究将结构化临床变量与从波斯语门诊记录中提取的、基于临床知识的规则化文本特征相结合。该系统采用易于理解的传统机器学习算法,能够识别出高风险患者,从而提供一种实用的决策支持工具,兼顾定量测量结果与定性临床记录信息。该系统已使用伊朗某居家护理机构的数据完成训练与应用。
本文的结构如下:第2节回顾相关文献,内容包括(2.1)预测恶病质的症状与关键因素,以及(2.2)恶病质在居家护理中的应用情况;第3节介绍研究方法;第4节呈现研究结果,包括(4.1)风险因素的识别与数据收集,(4.2)智能专家系统的开发,(4.3)基于智能标记的文本挖掘与恶病质风险预测,以及(4.4)基于所提方法的仪表板实现;第5节将研究结果与现有研究进行比较;第6节阐述研究的理论贡献与管理意义;第7节详细说明研究的局限性与注意事项;最后,第8节给出结论,并提出未来研究的方向。
**文献综述**
根据研究目标,文献综述分为两个部分:第一部分梳理了早期检测恶病质所需的关键症状与因素;第二部分探讨了居家护理领域中与恶病质相关的研究,尤其是针对癌症患者恶病质诊断的研究。
**研究方法**
本研究共分为三个主要阶段,每个阶段都旨在解答关于癌症患者恶病质预测的核心问题(见图2)。以下各小节将详细介绍每个阶段所涉及的样本群体、数据来源以及具体研究方法。
**识别风险因素与数据收集**
本研究的初始阶段旨在根据患者资料识别出早期检测恶病质的关键因素。为实现这一目标,本研究遵循第2.1节所述的方法,对那些明确涉及癌症患者恶病质早期检测症状及相关要素的研究进行了重点梳理。通过这一针对性的文献回顾,本研究试图找出那些已被临床证实、对恶病质预测具有重要作用的因素。
**讨论**
本研究评估了将门诊记录中的文本特征与结构化数据结合使用,是否能够提升居家肿瘤护理环境中恶病质的早期检测能力。在两种分析方案中,加入文本特征都提供了补充性的预测信息。在无需依赖过于复杂的模型情况下,通过10折交叉验证也观察到了性能的提升。
**关于临床相关性的结论**
本研究所得的指标仅为将该方法纳入常规肿瘤护理工作的起点。鉴于错误分类可能带来的严重后果,应始终注重设定合理的阈值、进行本地验证,并将该方法作为辅助工具,而非替代临床医生的判断。需要在不同医疗机构、不同类型的癌症以及不同语言环境中开展前瞻性外部验证,才能确认该方法的普遍适用性。
**理论贡献与管理意义**
本研究有助于揭示非结构化临床信息如何通过将与结构化数据结合的文本挖掘特征,提升肿瘤学领域的早期疾病预警能力。本研究所识别的25个文本特征及其在预测框架中的整合,可为其他领域的类似应用提供参考,不过仍需根据具体情境进行适当调整。所提出的智能专家系统,结合……
**结论**
在癌症患者中实现恶病质的早期检测,有助于及时采取干预措施,从而减缓肌肉流失并提升患者的生活质量。本研究提出了一种智能专家系统,该系统将结构化临床数据与波斯语门诊记录中的文本特征相结合,用于在居家肿瘤护理环境中预测恶病质风险。在两种分析方案中,加入文本特征均带来了适度但稳定的性能提升。对于表现最佳的两种模型(XGBoost和……)
**伦理考量**
本研究遵循《赫尔辛基宣言》的伦理准则(https://www.wma.net/policies-post/wma-declaration-of-helsinki/),对已去标识化的历史临床记录进行了文本挖掘分析。根据相关机构及国家法规,本研究无需获得患者的知情同意,也不需要额外的伦理委员会批准。
**涉及人类参与者与/或动物的研究**
本研究使用的是已去标识化的癌症患者临床记录,从而确保了患者的匿名性与保密性。具体细节详见……
**CRediT作者贡献说明**
法里巴·扎雷安:撰写——初稿、可视化、验证、软件、资源、形式分析、数据整理。萨巴·萨雷米尼亚:撰写——审阅与编辑、验证、监督、项目管理、方法论、研究实施、形式分析、概念构建。雷扎·索卢基:撰写——初稿、验证、概念构建。
**利益冲突声明**
作者声明不存在任何可能影响本研究结果的已知财务利益或个人关系。
**致谢**
本研究得到了伊朗癌症控制中心(MACSA)(https://macsa.ir/en/)以及伊斯法罕理工大学(https://iut.ac.ir/)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号