综述：产后出血人工智能预测的系统评价

《Frontiers in Global Women's Health》：Artificial intelligence for postpartum hemorrhage: a systematic review

【字体：大中小】 时间：2026年06月12日 来源：Frontiers in Global Women's Health 2.4

编辑推荐：

　　背景：产后出血（postpartum hemorrhage, PPH）仍是全球孕产妇发病率和死亡率的首要原因之一，传统风险评估工具多依赖静态因素，可能遗漏快速演变的产程内事件。人工智能（artificial intelligence, AI）为PPH预测提供了

背景：产后出血（postpartum hemorrhage, PPH）仍是全球孕产妇发病率和死亡率的首要原因之一，传统风险评估工具多依赖静态因素，可能遗漏快速演变的产程内事件。人工智能（artificial intelligence, AI）为PPH预测提供了数据驱动的潜在动态方法，但既往系统评价对近期方法学及验证实践的覆盖有限。目的：系统整合AI模型用于PPH预测的证据，涵盖临床应用、数据来源、预测目标、验证策略及研究质量。方法：研究人员遵循系统评价与荟萃分析优先报告条目（Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA）指南，检索2015年至2025年间发表于MEDLINE、Embase、Scopus、IEEE Xplore和Google Scholar的文献。两名评审员独立筛选文献，运用预设表格提取数据，并通过共识解决分歧。采用针对AI-based PPH预测改良的诊断准确性研究质量评价工具-2（Quality Assessment of Diagnostic Accuracy Studies-2, QUADAS-2）评估偏差风险和应用性。结果采用叙述性综合，涵盖研究设计、预测情境、输入变量、建模方法及验证策略。结果：共33项研究符合纳入标准。文献集中于2023—2025年（79%），且主要为回顾性（91%）和单中心（55%）研究。多数模型针对产前风险分层（79%），少数关注产程内/产后即刻早期预警或严重程度升级（24%）。结局主要建模PPH发生（79%），采用二分类方法（91%）。所有研究均使用封闭数据集。经典机器学习占主导（85%），而深度学习（33%）和大语言模型（large language model, LLM）方法（6%）较少。验证主要为内部验证（76%），外部验证有限。参与者选择为主要质量关切（高偏差风险：48%），而待评价试验和参考标准 largely 为低风险。结论：AI-based PPH预测研究正快速扩展，但仍受限于回顾性封闭数据集、异质性结局定义及有限的外部/时间验证。向临床就绪迈进需要协调统一的标注、多中心数据集、面向部署的评估以及前瞻性实施研究。

## 1 引言

产后出血（postpartum hemorrhage, PPH）通常定义为分娩后过量出血，是全球孕产妇死亡的首要原因之一，每年约影响1400万女性，导致约70000例孕产妇死亡。世界卫生组织（World Health Organization, WHO）将PPH定义为产后24小时内累积失血量≥500 mL，而美国妇产科医师学会（American College of Obstetricians and Gynecologists, ACOG）采用更高阈值≥1000 mL，并将任何伴低血容量临床症状的出血量均视为PPH。尽管医疗水平进步，PPH在高资源地区仍是挑战，与休克、输血、子宫切除和延长住院等严重并发症相关。早期识别风险（或早期发现进展性出血）能够促进准备工作（如血库激活、升级处理路径、使用子宫收缩剂及多学科应急准备）并及时治疗以减少可预防伤害。

然而，现有PPH预测临床方法如风险清单、分类工具和临床医师判断，常过度依赖静态产前因素，可能遗漏大量事件，尤其是产程内快速进展者或低风险患者。广泛使用的风险分层工具的验证工作显示其在真实世界队列中仅具中等灵敏度，表明许多PPH病例尽管入院时分类为低风险仍会发生。这些局限性推动了个体化、数据驱动方法的发展，以期在分娩过程中动态更新风险。

人工智能方法，包括经典机器学习（machine learning, ML）、深度学习和新兴大语言模型方法，正越来越多地应用于产科并发症预测。在PPH领域，研究已评估产前风险分层、产程内早期预警/严重程度升级，以及利用病历文档进行自动化病例识别。近期关于AI用于PPH风险评估的系统评价仍较为零散、范围有限。2025年四项综述涉及PPH预测，但两项系统性努力受限于AI证据基础薄弱和建模覆盖狭窄：Baeta等仅纳入9项ML研究，且主要综合传统统计模型；Sirichaisit等仅分析11项研究。其余2025年文章（Mathewlynn等；Wakefield等）为叙述/入门式风格，未遵循系统方法，限制了可重复性并可能引入选择偏倚。更早的2023年系统评价仅综合4项研究。总体而言，既往综述对近期AI方法（如深度学习和LLM）、严格验证和真实世界实施考量的覆盖有限，缺乏全面证据综合。

为弥补上述空白，本系统评价综合33项研究，涵盖AI预测PPH的全部模型谱系。具体目标包括：（1）编目PPH预测模型特征；（2）刻画AI建模数据来源特征；（3）总结预测目标；（4）综合模型评估策略；（5）运用改良QUADAS-2框架评估偏差风险和应用性；（6）识别与临床部署相关的空白，以指导未来研究和负责任实施优先事项。

## 2 方法

本系统评价遵循PRISMA指南开展。未在PROSPERO或其他公共注册机构前瞻性注册。研究者采用人群-概念-情境（Population–Concept–Context, PCC）框架预设纳入排除标准。

纳入标准涵盖：涉及孕妇或产后个体的研究；开发或验证预测PPH风险或发作AI模型的研究，包括经典ML算法（如逻辑回归、正则化回归、随机森林、支持向量机、梯度提升、XGBoost、LightGBM、CatBoost和K近邻）、深度学习架构（如多层感知器、卷积神经网络、基于ResNet模型和基于GAN方法）以及LLM/自然语言处理（natural language processing, NLP）方法；任何可应用PPH预测的医疗或研究情境，包括产前风险分层、产程内早期预警、产后即刻监测和产后早期监测；PPH定义包括量化/估计失血量阈值、ICD编码PPH、严重程度指标和临床相关结局；2015年至今发表的英文模型开发、内部验证、外部验证 PeeWee football score更新研究，包括回顾性或前瞻性队列、注册研究和务实实施研究。

排除标准包括：非人类/动物研究；非预测PPH焦点研究（如不含预测的治疗优化）和无预测建模的纯描述性分析；社论、评论和叙述性综述；缺乏方法和性能充分信息的仅摘要发表文献。

信息检索覆盖MEDLINE（Ovid）、Embase（Ovid）、Scopus、IEEE Xplore和Google Scholar五个电子数据库，检索策略组合PPH与AI核心概念及相关同义词和受控词汇，限定2015年1月1日至2025年12月19日发表文献。限定2015年起始是为聚焦当代AI临床预测研究时期，排除早期传统风险因素和列线图研究。

两名评审员独立筛选标题/摘要和全文，分歧通过讨论解决，必要时第三方仲裁。10%研究进行双提取校准；其余研究经第二评审员核实。采用改良QUADAS-2工具评估质量，该工具针对AI-based PPH预测研究替换不适用的条目，涵盖参与者、待评价试验（AI算法）、参考标准（金标准）和分析四个域，每个域设四个信号问题。除偏差风险外，还评估前三个域的应用性。改良工具在10项研究亚组中预实验以完善表述和校准，最终由两名评审员独立评估全部纳入研究，分歧经讨论共识解决。

数据采用叙述性综合，通过文本、表格和图形呈现，按四个域组织：（1）研究元数据、设计和人群；（2）PPH临床情境（临床应用、预测结局、金标准、预测时机）；（3）AI建模输入数据（数据来源、受试者数量和年龄、输入数据类型）；（4）AI模型特征（AI任务、模型架构、验证类型和技术、性能指标）。结局类别按各研究报告的临床构念和建模目标分配：预测PPH有无者为PPH发生；预测严重阈值或分类出血严重程度者为PPH严重程度/严重出血；预测毫升数失血量为定量失血；纳入PPH与输血、干预或严重孕产妇发病率指标复合终点者为复合不良结局。

因纳入研究在PPH定义、参考标准、预测窗口和报告绩效指标方面存在方法和临床异质性，且多项研究未提供稳健定量综合所需的阈值特异性或混淆矩阵数据，故未进行正式荟萃分析。

## 3 结果

### 3.1 检索结果

数据库检索共识别254条记录（MEDLINE 37条、Embase 107条、Scopus 63条、IEEE Xplore 17条、Google Scholar 30条）。去除78条重复后，176条进入标题和摘要筛选，排除121条。55篇全文评估中，22篇因不相关发表类型（海报、预印稿和综述，n=14）、非PPH主要焦点（n=5）和非AI（n=3）排除。最终33项研究纳入综述。

### 3.2 纳入研究特征

虽然2020—2025年均有研究纳入，但2023—2025年高度集中（26/33，79%），反映AI-based PPH预测领域兴趣快速涌现和研究活动加速。研究来自九个国家，以中国（15/33，45%）和美国（9/33，27%）最常见，印度和土耳其各2项。多数为期刊文章（29/33，88%），会议论文4项（12%）。方法学上，回顾性设计占主导（30/33，91%），仅3项前瞻性研究（9%）。单中心研究为主（18/33，55%），多中心10项（30%），5项（15%）未报告机构数量。

### 3.3 产后出血预测情境

多数AI模型设计用于出血发作前预见性风险分层（26项，79%）。较小亚组关注产程或产后即刻早期预警/严重程度升级（8/33，24%）和基于文档的自动化病例识别/诊断（3/33，9%），部分研究涉及多项应用。金标准定义最常用基于失血量的标准（估计或量化失血量或实验室替代指标，19项，58%），其次为基于诊断/编码或病历回顾的文档衍生表型（7/33，21%）和纳入输血、干预或严重孕产妇发病率特征的复合临床结局（5/33，15%）。主要预测目标为PPH发生（26/33，79%），少数预测严重PPH/严重出血（3/33，9%）、复合不良结局（2/33，6%）、定量失血量（1/33，3%）或PPH表型/病因亚型分类（1/33，3%）。结局主要建模为二分类（30/33，91%），分类（3/33，9%）或连续结局（1/33，3%）使用有限。预测时机方面，近半数学研究在产程内或围产期生成预测（16/33，48%），产前（8/33，24%）或入院/分诊时（5/33，15%）较少；产后早期预测（0—2小时）和产后文档预测（≥24小时）各1项（3%）。

### 3.4 AI建模输入数据

所有研究均依赖封闭、非公开数据集（33/33，100%），无使用开放数据集。报告样本量的研究（32/33，97%）中，队列规模变异大，平均29 744例（标准差48 853），范围147—185 413。受试者年龄报告不一致：12项（36%）报告平均年龄（总均31.29岁，标准差1.94），年龄范围11—58岁；21项（64%）未报告年龄。模型输入方面，多数纳入产前数据（29/33，88%）和产程内数据（25/33，76%），人口统计学信息纳入频率相似（29/33，88%）。产后变量使用远少（5/33，15%）。这些输入类别非互斥，反映单个模型内多数据类型整合常见。

### 3.5 AI模型特征

多数研究采用经典机器学习方法（28/33，85%），深度学习模型用于11项（33%），LLM方法用于2项（6%），部分研究有类别重叠。算法层面，逻辑回归和随机森林最常用（各20/33，61%），其次为支持向量机（10/33，30%）和梯度提升变体，包括XGBoost（9/33，27%）、Gradient Boosting（4/33，12%）、LightGBM（4/33，12%）和CatBoost（3/33，9%）。深度神经网络报告于3项研究（9%），基于ResNet架构出现于2项（6%），其余多种方法各单篇报告（12/33，36%）。

验证方面，内部验证最常见（25/33，76%），联合内部和外部验证较少（4/33，12%），仅外部验证3项（9%）。留出分割为主要验证技术（22/33，67%），k折交叉验证用于12项（36%），时间验证3项（9%）。性能报告最常用受试者工作特征曲线下面积（area under the receiver operating characteristic curve, AUROC）（26/33，79%）、灵敏度（21/33，64%）和准确度（20/33，61%），F值和特异度各12项（36%）。

### 3.6 偏倚风险评价结果

采用改良QUADAS-2工具评估四个域：参与者选择、待评价试验、参考标准和分析。

总体待评价试验域偏差风险最低，所有研究评为低风险（33/33）。参考标准域也大多稳健，31项低风险，2项不确定。相反，参与者选择为最常见偏倚来源：10项低风险，7项不确定，16项高风险。分析域多数低风险（28/33），4项高风险，1项不确定。

应用性关切呈现相似模式。所有研究待评价试验应用性评为低关切（33/33）；参考标准多数低关切（31/33），2项不确定。参与者应用性变异较大，14项低关切，7项不确定，12项高关切，表明患者人群和抽样方法并非始终代表预期真实世界场景。

## 4 讨论

### 4.1 主要发现

本系统评价33项研究显示，AI用于PPH预测的证据基础正快速扩展，但方法学上仍呈异质性，临床转化基本处于早期阶段。多数研究发表于近年，且主要为回顾性和单中心，提示该领域进展迅速但仍集中于模型开发而非部署就绪评估。

关键模式如下：第一，主导预测情境为出血发作前预见性风险分层，较少关注产程内、围产期或产后即刻早期预警和严重程度升级，表明当前多数AI模型旨在识别临床恶化前风险增高患者，而非支持分娩过程中风险动态监测。产前模型可支持准备工作、资源规划和升级准备，但可能较难捕捉导致PPH的快速进展产程因素。

第二，证据基础强烈锚定于常规收集的临床和电子病历（electronic health record, EHR）衍生封闭数据。多数使用产前、产程内和人口统计学变量，产后变量和更高频率生理信号使用较少。这反映结构化产科数据的可获得性，但也凸显对早期预警应用重要的更动态、多模态或实时数据流使用有限。

第三，经典机器学习方法占主导，特别是逻辑回归、随机森林、支持向量机和梯度提升方法，而深度学习和LLM方法较少。本综述中，模型按其在PPH预测中的角色而非仅算法复杂性定位。回归方法仅在作为监督预测模型开发、比较或验证时纳入，而非用于传统风险因素推断或独立列线图构建时。据此，经典ML模型被解释为结构化数据预测方法，深度学习模型代表图像、表格或增强数据预测的更复杂架构，LLM/NLP方法定位为从临床文本提取或建模风险相关信息的涌现方法。这一区分支持对证据的更清晰解读，尤其因为更简单的结构化数据模型在产科场景中可能更可行和可解释，而更复杂模型需要更强验证和增量临床价值的更明确证据。

第四，验证和性能报告主要关注区分度和内部导向。多数使用留出分割或交叉验证等内部验证方法，而外部验证、时间验证和决策影响评估报告较少。结果许多模型在开发数据集内显示有前景的预测性能，但其跨不同临床场景的泛化性、校准和运营价值仍不确定。

最后，改良QUADAS-2评价显示待评价试验和参考标准域总体低风险，而参与者选择为最常见偏倚风险和应用性关切来源。这些发现共同表明，AI-based PPH预测作为研究领域已取得实质性进展，但当前证据更宜表征为探索性和开发聚焦，而非已可广泛临床实施。向临床就绪迈进需要更具代表性队列、协调统一结局定义、更强外部和时间验证，以及与现实世界产科工作流程对齐的评估策略。

### 4.2 方法学空白和转化障碍

#### 4.2.1 结局定义、标签质量和临床构念失配

PPH并非单一、统一测量的终点，纳入研究采用多样参考标准进行操作化。基于失血量的定义（估计或量化）临床直观但易受测量误差和文档变异性影响，尤其使用估计而非量化失血时。相反，诊断编码和病历衍生表型受机构文档和编码实践影响，可能低报或高报真实生理性出血。纳入输血或干预的复合结局对升级处理有临床意义，但可能部分由实践模式、人员配置和当地阈值而非单纯出血严重程度决定。这些标签选择影响表观模型性能和临床意义。优化预测编码PPH的模型可能学习文档和计费模式而非出血生理学。预测输血或干预复合结局的模型可能难以推广到具有不同输血阈值、子宫收缩剂方案或介入放射学可及性的机构。关键转化步骤因此是预测结局与预期临床行动之间的明确对齐。可行时，未来研究应报告多个对齐终点（如PPH发生、严重PPH、输血和升级）而非单一异质性标签，并明确指定测量方法及相对于分娩的时机。

#### 4.2.2 时机、可执行性和治疗混杂

预测时机对临床效用至关重要。产前和分诊模型可告知早期准备，但可能类似于现有风险清单的精炼版本，可能遗漏产程内驱动事件（如产程中进展的子宫收缩乏力、手术事件或入院后并发症）。产程内和产后即刻预测可利用更高频率信号（生命体征、产程进展、实验室趋势和突发并发症），潜在实现进展性出血的早期识别。但这些场景也最易受治疗混杂和时间泄漏影响，因为干预（子宫收缩剂、液体、手术分娩、手法探查、输血）既可响应出血早期征象，也可塑造记录预测因素和结局。

为保持有效性，研究应定义明确预测时间点（或时间点序列），将预测因子限制于预测时可获得者，并考虑时间依赖性干预。界标法、使用时间戳特征更新风险的动态模型，以及针对特定决策点（分诊、活跃产程、产后即刻）的独立模型，可更好将预测映射到可执行工作流，同时减少泄漏风险。明确报告预测时可获得信息尤为重要，当纳入产后变量时尤其如此，因其可能临床尚不可获得，或可能已反映进展性出血过程，取决于预期使用案例。

#### 4.2.3 验证、校准和临床有意义评估

验证和评估实践仍是临床可移植性的主要障碍。多数依赖内部验证，常用随机留出分割或交叉验证。这些方法适合初始开发，但当数据在医院或科室聚集、临床路径随时间变化或个体有多次就诊时，可能误代部署条件。外部验证和时间验证相对少见，尽管对量化数据集偏移和支持开发场景外采用至关重要。

性能报告常强调AUROC和准确度。在低患病率结局和类别不平衡场景中，这些指标可掩盖假阳性的运营后果（如不必要激活、增加资源使用和警报疲劳）。此外，多项研究未提供AUROC置信区间、采用不同验证方法，或无预定选择策略呈现模型，制约荟萃分析可行性。临床上，模型必须在特定工作点评估，报告灵敏度、阳性预测值和警报率（如每100例分娩），同时报告校准（预测风险与观察概率是否匹配）。决策曲线分析等效用导向评估，以及帮助量化临床工作量和安全权衡的指标，仍未充分利用。这些空白促成"最后一公里"障碍——有前景的区分度未能转化为可用决策支持。

#### 4.2.4 泛化性、公平性和可重复性

参与者选择是评价中最常见的偏倚风险和应用性关切来源，与回顾性和单中心设计主导的文献一致。选择性纳入标准、高风险队列富集，以及对转诊或院外出生的不完全捕获，可引入谱系偏倚并夸大性能。即使内部验证，机构间病例组合、文档实践和诊疗路径差异也可导致真实世界场景中的快速退化。

额外公平性关切与证据基础的地理集中相关。本综述中45%纳入研究源自中国，27%来自美国，表明当前PPH预测AI开发主要由高资源环境驱动。这一集中可能限制对低中收入国家（low- and middle-income countries, LMIC）的适用性，那里PPH负担最重，且临床工作流、病例组合、资源可及性、血制品获取、文档实践和数字基础设施可能与模型开发和验证环境差异显著。因此，主要基于中国和美国数据集训练验证的模型，若无本地适应和验证，可能难以良好推广至LMIC场景。未来工作因此应优先考虑地理多样化队列、纳入LMIC情境的多中心合作，以及公平性导向评估，以确保PPH预测AI工具不扩大现有全球孕产妇健康差距。

最后，对封闭数据集的排他性依赖限制可重复性、独立基准测试和透明错误分析。孕产妇健康数据治理限制真实存在，但这更强化共享基准策略的案例，如多中心联盟、标准化报告模板和允许独立测试而不集中患者级数据的联邦评估框架。建立通用数据定义和评估协议将有助于跨模型更有意义的比较，加速向临床可信系统进展。

### 4.3 产后出血人工智能的未来方向

未来工作应从概念验证建模转向部署就绪证据，优先事项涵盖数据基础、建模策略、评估和实施科学。

首先，领域将受益于协调统一的标签定义和报告标准，明确区分生理性出血（失血量和实验室替代指标）、治疗性出血（输血和干预）和文档衍生表型。务实方法是支持多个对齐目标（如PPH发生、严重PPH、输血和升级）并报告相对于分娩的时机。这将促进将模型与具体升级路径匹配，避免将生理性出血与实践模式结局混淆。

第二，方法学发展应强调捕捉动态产程过程的纵向和多模态模型。这包括时间戳生命体征和实验室趋势、用药和干预时间线、分娩方式和手术事件，以及可获得的床旁设备信号、波形衍生特征或影像。模型应明确处理缺失和 irregular sampling，这在产科数据中常见且若透明管理可提供信息。使用深度学习时，与更简单基线的比较评估应配对支持临床信任和错误分析的可解释性方法。

第三，转化需要更强验证和临床对齐评估。预期临床使用的模型应进行时间验证和跨患者组合和实践模式差异场景的外部验证。报告应包括校准、基于阈值的工作点和效用导向测量如净获益，以及按分娩方式、出血病因、合并症特征和诊疗场景识别失败模式的详细错误分析。可能时，研究应比较与现有临床工具或标准诊疗风险分层的性能，以明确增量价值。

第四，实施研究至关重要。前瞻性静默试验可在不影响诊疗量化和校准偏移，并告知阈值选择和用户界面设计。后续阶梯楔形或整群随机评估可测量临床结局、工作流影响、公平性和意外后果（包括警报疲劳和过度诊疗）。部署后监测应预先指定，涵盖再校准、漂移检测和随时间模型更新的治理。

最后，新兴基础模型和LLM方法可通过从自由文本笔记提取结构化风险信号、通过迁移学习改善数据效率做出贡献。但这些方法必须与其他预测系统同等严格评估，包括稳定性、校准和真实世界失败模式，且不应在没有前瞻性证据时定位为临床就绪。

### 4.4 综述局限性

本系统评价有局限性。限定纳入选定数据库截至2025年12月的英文发表；其他语言、预印稿或灰色文献的相关工作可能遗漏。因结局、参考标准、预测时机和性能报告高度异质性，且荟萃分析所需关键要素（如一致阈值和完整混淆矩阵报告）常不可获得，故无法进行荟萃分析。此外，偏倚风险评估使用针对AI-based PPH预测改良的QUADAS-2工具。虽提高域相关性，判断仍依赖报告完整性，部分研究可能实际采用比发表描述可推断的更强实践。

## 5 结论

AI-based PPH预测是快速扩展的领域，多数研究聚焦使用回顾性封闭数据集和主要内部验证的产前事件风险分层。尽管许多模型报告有前景的区分度，结局定义异质性新闻传播、产后特征使用有限和参与者选择相关频繁关切限制泛化性和临床就绪性。向真实世界影响进展需要协调统一的PPH标注、多中心数据集、更强外部和时间验证，以及强调校准和临床效用的部署导向评估。新兴多模态和基础模型方法为提升PPH预测提供强潜力，精心设计的前瞻性实施研究将有助于确认其安全性、有效性和真实实践中的长期可持续性。

热点排行