
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于规则的自然语言处理技术用于从病理报告中提取实体信息以进行癌症分期数据收集:WA癌症分期项目
《BMC Medical Informatics and Decision Making》:Cancer staging data collection using rules-based natural language processing for entity extraction from pathology notifications: the WA cancer staging project
【字体: 大 中 小 】 时间:2026年06月16日 来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
摘要背景癌症分期数据对于治疗规划、预后预测、临床研究以及医疗资源分配至关重要。在群体层面收集此类数据有助于提升分析深度,但现有的手工方法耗费大量资源。本研究旨在开发基于规则的自然语言处理系统,以实现以下目标:(1)从提交给西澳大利亚癌症登记处的数据中提取明确的肿瘤、淋巴结及转移(
癌症分期数据对于治疗规划、预后预测、临床研究以及医疗资源分配至关重要。在群体层面收集此类数据有助于提升分析深度,但现有的手工方法耗费大量资源。本研究旨在开发基于规则的自然语言处理系统,以实现以下目标:(1)从提交给西澳大利亚癌症登记处的数据中提取明确的肿瘤、淋巴结及转移(TNM)相关实体;(2)提取可转化为具体TNM数值的隐含实体;(3)根据AJCC第8版TNM分期系统,将这些数值转换为黑色素瘤、乳腺癌和结直肠癌的分期。
在知识专家的指导下,开发了基于规则的NLP系统,利用病理报告和医院住院病历数据集来提取分期信息,并对结直肠癌、乳腺癌和黑色素瘤进行分期。通过召回率、精确率和F1分数,将这些系统的性能与癌症分期项目工作人员手工收集的数据(即真实值)进行对比评估。
经过多次迭代开发后,基于规则的NLP系统对87%-90%的病例进行了正确分期,其表现优于癌症分期人员的手工分类结果。黑色素瘤相关NLP系统的加权平均精确率为0.96,召回率为0.94,F1分数为0.94;结直肠癌和乳腺癌相关模型的加权平均精确率、召回率及F1分数分别为0.89、0.89、0.89,以及0.90、0.89、0.89。这些基于规则的NLP系统表现出优异的性能,若能引入更多数据源,其准确度还有进一步提升的空间。
基于规则的NLP架构能够从常规收集的临床文本中准确提取TNM相关参数及癌症分期信息。尽管这类方法依赖于领域专家的输入而非数据驱动的训练,但它们为在训练数据有限的条件下实现癌症分期流程的部分自动化提供了一种可行方案。
癌症分期数据对于治疗规划、预后预测、临床研究以及医疗资源分配至关重要。在群体层面收集此类数据有助于提升分析深度,但现有的手工方法耗费大量资源。本研究旨在开发基于规则的自然语言处理系统,以实现以下目标:(1)从提交给西澳大利亚癌症登记处的数据中提取明确的肿瘤、淋巴结及转移(TNM)相关实体;(2)提取可转化为具体TNM数值的隐含实体;(3)根据AJCC第8版TNM分期系统,将这些数值转换为黑色素瘤、乳腺癌和结直肠癌的分期。
在知识专家的指导下,开发了基于规则的NLP系统,利用病理报告和医院住院病历数据集来提取分期信息,并对结直肠癌、乳腺癌和黑色素瘤进行分期。通过召回率、精确率和F1分数,将这些系统的性能与癌症分期项目工作人员手工收集的数据(即真实值)进行对比评估。
经过多次迭代开发后,基于规则的NLP系统对87%-90%的病例进行了正确分期,其表现优于癌症分期人员的手工分类结果。黑色素瘤相关NLP系统的加权平均精确率为0.96,召回率为0.94,F1分数为0.94;结直肠癌和乳腺癌相关模型的加权平均精确率、召回率及F1分数分别为0.89、0.89、0.89,以及0.90、0.89、0.89。这些基于规则的NLP系统表现出优异的性能,若能引入更多数据源,其准确度还有进一步提升的空间。
基于规则的NLP架构能够从常规收集的临床文本中准确提取TNM相关参数及癌症分期信息。尽管这类方法依赖于领域专家的输入而非数据驱动的训练,但它们为在训练数据有限的条件下实现癌症分期流程的部分自动化提供了一种可行方案。