回顾性队列研究:从Ⅰ–Ⅲ期浸润性乳腺癌(invasive breast cancer, IBC)病理报告中提取并存背景乳腺病变特征

《Cancers》:Retrospective Cohort Study: Extracting Coexisting Background Breast-Lesion Features from Stage I–III Invasive Breast Cancer

【字体: 时间:2026年06月19日 来源:Cancers 4.4

编辑推荐:

  背景(Background):背景乳腺特征常在浸润性乳腺癌(IBC)病理报告中被一并记录,但极少纳入预后或治疗决策考量,其与肿瘤特征及患者预后的关系尚未明确。方法(Methods):研究人员开展一项回顾性队列研究,纳入新加坡联合乳腺癌登记库(Joint Bre

  
背景(Background):背景乳腺特征常在浸润性乳腺癌(IBC)病理报告中被一并记录,但极少纳入预后或治疗决策考量,其与肿瘤特征及患者预后的关系尚未明确。方法(Methods):研究人员开展一项回顾性队列研究,纳入新加坡联合乳腺癌登记库(Joint Breast Cancer Registry, JBCR)中7603例Ⅰ–Ⅲ期IBC患者(1991–2022年确诊,年龄<80岁)。应用自然语言处理(natural language processing, NLP;OpenAI GPT?4?turbo)对9754份自由文本病理报告进行并存背景乳腺特征的结构化提取,并在200份报告中进行双人复核验证。因背景特征在切除标本(excision specimen)中最可靠评估,主要分析队列含3988例有切除病理报告者。采用无监督层次聚类将提取特征归为三类;采用多项 Logistic 回归评估与肿瘤特征的关联;采用 Cox 比例风险模型分析十年总生存(overall survival, OS;中位随访9.6年,620例死亡)。结果(Results):NLP 提取背景乳腺特征各特征准确率>90%。小叶肿瘤(lobular neoplasia, LN;即小叶原位癌 lobular carcinoma in situ, LCIS 及非典型小叶增生 atypical lobular hyperplasia, ALH)和良性增生性改变与侵袭性较低的肿瘤特征相关;早期肿瘤性病变及乳头状病变在 HER2?富集(HER2?enriched)及 Luminal B 亚型中更常见。良性增生性改变在年龄及年份校正模型中与较好生存相关(风险比 hazard ratio, HR 0.91,95% CI 0.86–0.97),但调整分期及亚型后该关联被削弱。结论(Conclusions):基于 NLP 从病理文本中大规模提取背景乳腺特征可行;这些特征反映肿瘤生物学特性,但在已确立的临床变量之外不能独立提供额外预后信息。
论文解读:《Retrospective Cohort Study: Extracting Coexisting Background Breast-Lesion Features from Stage I–III Invasive Breast Cancer》发表于《Cancers》
研究背景与立项依据
每年全球约230万女性被诊断为乳腺癌(invasive breast cancer, IBC),标准病理评估聚焦于肿瘤大小、分级、淋巴结状态、激素受体(雌激素受体 estrogen receptor, ER;孕激素受体 progesterone receptor, PR)及人表皮生长因子受体2(human epidermal growth factor receptor 2, HER2)状态,这些构成预后分期及辅助治疗依据。与之相反,病理报告中并存的背景乳腺特征——如良性、非典型或增生性病变——通常以自由文本(free?text)注释且无标准化术语记录,其潜在影响长期未被探索。导管原位癌(ductal carcinoma in situ, DCIS)作为公认的非浸润性前驱病变曾被研究,但其他背景良/高危病变的预后意义不清。随着电子健康记录数字化,自然语言处理(natural language processing, NLP)可从病理叙述中大规模提取结构化临床数据,然其在背景乳腺病理中的应用及效度尚未系统评价。本研究旨在:(1)验证 NLP 从常规病理报告中提取背景乳腺特征的可行性与准确性;(2)阐明这些特征与Ⅰ–Ⅲ期 IBC 肿瘤特征及预后的关联。
主要关键技术方法
研究人员基于新加坡 SingHealth 集群医院联合乳腺癌登记库(Joint Breast Cancer Registry, JBCR),筛选7603例1991–2022年确诊、年龄<80岁的Ⅰ–Ⅲ期 IBC 患者,获取9754份自由文本病理报告。采用 GPT?4?turbo(temperature=0,零样本 zero?shot)运行5个定制提示模板分别提取:乳腺组织判定、标本类型与恶性判定、前浸润性病变(DCIS、LCIS、非典型导管增生 atypical ductal hyperplasia, ADH、ALH)、良性增生性病变(普通型导管增生 usual ductal hyperplasia, UDH、硬化性腺病 sclerosing adenosis、放射状瘢痕/复杂硬化病变 radial scar/complex sclerosing lesion、导管内乳头状瘤 intraductal papilloma、纤维腺瘤 fibroadenoma)、良性非增生性病变(囊肿 cyst、大汗腺化生 apocrine metaplasia、柱状细胞改变 columnar cell change、囊性增生改变 fibrocystic change、钙化 calcification、扁平上皮不典型 flat epithelial atypia, FEA)。在200份报告中进行分层随机抽样双人(数据分析员+病理医师)复核验证 NLP 准确性。因切除标本背景特征评估最可靠,主要分析限定3988例有切除病理报告者。对二值特征矩阵计算 Pearson 相关并转换为相异度,用 Ward.D2 法进行无监督层次聚类。多项 Logistic 回归(校正年龄、年份、种族、乳腺癌家族史、绝经状态、产次,Benjamini–Hochberg 假发现率 false discovery rate, FDR 校正)分析特征与肿瘤临床病理特征关联;Cox 比例风险模型(逐步加入年龄/年份→社会人口学→肿瘤分期及分子亚型 proxy subtype→治疗)评估与十年总生存(overall survival, OS)关联,敏感性分析按标本类型、年代(2010年前后)、分期分层。
研究结果
3.1. Study Cohort(研究队列)
经流程筛选最终纳入9754份报告(7603例患者),主要分析切除标本亚组 n=3988。中位诊断年龄56.0岁,多数(77%)为华裔,62%为2010年后诊断。
3.2. NLP Extraction Performance(NLP提取性能)
CNB(粗针穿刺活检 core needle biopsy, CNB)与切除标本间背景特征检出一致性低(Cohen's κ ?0.003~0.336),切除标本检出率系统性高于 CNB。在200份人工复核样本中 NLP 整体准确率>90%,灵敏度(sensitivity) 0.75–1.00,特异度(specificity) 0.93–1.00,阳性预测值(positive predictive value, PPV)与阴性预测值(negative predictive value, NPV)均良好,证实零样本大模型可高精度从自由文本提取乳腺组织学特征。
3.3. Unsupervised Clustering of Breast Features(乳腺特征的无监督聚类)
层次聚类识别出三个自然分组:(1)小叶肿瘤(LCIS、ALH);(2)良性或非非典型增生性乳腺改变——纤维腺瘤、钙化、囊肿、大汗腺化生、柱状细胞改变、UDH、硬化性腺病、囊性增生改变;(3)早期肿瘤性病变(DCIS、ADH、FEA)、乳头状及复杂硬化病变。该分组符合已知病理生物学联系。
3.4. Associations with Tumor Characteristics(与肿瘤特征的关联)
小叶肿瘤(LCIS/ALH)与较低侵袭性肿瘤特征相关:晚期(Ⅱ/Ⅲ期)、ER阴性、PR阴性、低分化(poorly differentiated)、Luminal B/HER2?富集/三阴性(triple?negative breast cancer, TNBC)亚型几率降低(校正后显著),LCIS 但与 ≥5 cm 大肿瘤正相关。良性/非非典型增生改变总体与较低晚期、较大肿瘤(>2 cm)、低分化、淋巴结阳性(除外纤维腺瘤及囊肿)几率相关;大汗腺化生与 ER 阴性正相关。早期肿瘤性/乳头状/复杂硬化病变组合在晚期及大肿瘤中少见,TNBC 中少而 HER2?富集亚型中多于 Luminal A;DCIS 与 Luminal B 及 HER2?富集正相关。
3.5. Ten-Year Overall Survival(十年总生存)
Kaplan–Meier 显示任一良性/非非典型增生改变存在组十年 OS 优于缺失组(log?rank p=0.00089)。年龄及年份校正 Cox 模型中"任一良性增生"(连续)HR 0.91(0.86–0.97),钙化单独 HR 0.73(0.59–0.89);但进一步调整肿瘤分期及分子亚型 proxy 后所有背景特征 HR 均无统计学意义。分期越晚记录到的背景特征数目越少(logistic/Poisson 回归 p<5.28×10?4及 p<2.61×10?21)。
讨论与结论总结
研究人员指出:(1)GPT?4?turbo 类大语言模型可零样本高精度从病理报告提取结构化变量;(2)无监督聚类揭示背景病变自然分组,反映激素/微环境共性及病理联系,展示 NLP 发掘潜在生物学模式之价值;(3)背景特征(尤其良性增生)与较惰性的肿瘤表型关联可能源于不同致癌通路(低级别 Luminal A 经逐步非典型进展,高级别 TNBC/HER2? 可 de novo 发生)或检出偏倚(早期病例背景组织描述更详尽——"满足于首次发现(satisfaction of search)"及锚定偏差 anchoring bias,晚期标本背景取材少致记录少);(4)关联在调整分期/亚型后消失,提示不能独立提供预后增量信息。局限含回顾性设计、报告不全未知、未系统分析 NLP 错分原因、新加坡单中心群族外推需验证。结论部分原文翻译如下:
结论(Conclusions):研究人员证明从非结构化病理文本中结构化提取背景特征是可行且可规模化的。所呈现的显著关联应谨慎解读——许多估计值在 FDR 校正后有统计显著性但效应量适中,可能反映报告实践的人为现象而非潜在生物学。在临床应用考虑前需进一步验证与机制探讨。虽非立即可改变临床实践,但有助于将乳腺癌置于更广阔的病理背景下;未来研究需确认其临床价值。同时本研究凸显更全面病理报告记录的潜在价值,并支持基于常规观察但目前未充分利用的组织学特征进行风险分层或治疗个体化的策略探索。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号