基于患者视频与人工智能增强院前卒中诊断：人工智能与急救医疗服务人员性能基准对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neuroscience Informatics》：Enhancing Pre-Hospital Stroke Diagnosis with Videos of the Patient and AI: Benchmarking AI Against EMS Personnel

【字体：大中小】 时间：2026年05月24日 来源：Neuroscience Informatics CS11.7

编辑推荐：

　　背景与目标：院前卒中诊断因症状异质性强、表现常隐匿或非典型，成为重大临床挑战。这种变异性导致急救医疗服务（Emergency Medical Services, EMS）人员频繁误诊，错失治疗时间窗。本研究旨在开发一种自动化方法，通过视频评估神经功能任务检测卒

背景与目标：院前卒中诊断因症状异质性强、表现常隐匿或非典型，成为重大临床挑战。这种变异性导致急救医疗服务（Emergency Medical Services, EMS）人员频繁误诊，错失治疗时间窗。本研究旨在开发一种自动化方法，通过视频评估神经功能任务检测卒中。方法：研究人员构建了包含300例患者及86例健康对照的大规模数据库，累计超过50小时视频记录。每位受试者完成美国国立卫生研究院卒中量表（National Institutes of Health Stroke Scale, NIHSS）全部任务，据研究人员所知，这是全球最大的卒中患者视频数据集。基于此数据集，研究人员开发了预处理算法及机器学习（Machine Learning, ML）模型，用于识别患者临床可观察的卒中相关神经症状。研究将模型性能与经卒中识别培训的2000名EMS人员进行直接对比，统计指标包括宏F1分数（macro F1-score）、灵敏度（sensitivity）及特异度（specificity）。结果：所提方法优于EMS人员，宏F1分数提高7.2%，灵敏度提高12.0%。特异度亦显示稳健分类能力，验证了自动化方法的可靠性。结论：机器学习模型可在院前环境中通过识别临床可观察的卒中相关神经症状，超越受过培训的EMS人员在早期卒中识别中的表现。这些结果提示院前卒中筛查前景良好，但其临床影响仍需前瞻性真实世界评估验证。

本研究发表于《Neuroscience Informatics》，针对院前卒中诊断因症状异质性导致的漏诊与误诊问题，旨在利用视频数据与人工智能技术提升识别准确率。研究人员构建大规模卒中患者视频数据集，覆盖美国国立卫生研究院卒中量表（NIHSS）全部任务，训练机器学习模型识别面部瘫痪、凝视偏斜、上肢运动障碍、失语及构音障碍等神经症状，并与2000名经培训的法国急救医疗服务（EMS）人员进行性能基准对比，结果显示模型在宏F1分数与灵敏度方面均显著优于人类评估，证实人工智能辅助在院前卒中筛查中的潜力。

关键技术方法方面，研究人员在法国尼姆大学医院合作下采集288例急性卒中患者及86例人口学匹配的健康对照视频数据，每位受试者完成NIHSS各项任务，由神经科专家标注症状级真值。采用MediaPipe框架进行面部标志点提取与凝视方向判定，结合几何规则法检测凝视偏斜；利用面部不对称特征量化与递归特征消除（Recursive Feature Elimination with Cross-Validation, RFECV）构建面部瘫痪检测模型；通过OpenPose提取上肢关键点并结合稀疏光流与稳定期检测评估运动障碍；语音信号经SEGAN去噪后转换为梅尔频谱图（Mel Spectrogram），输入改进ResNet18网络分别识别失语与构音障碍；最终采用支持向量机（Support Vector Machine, SVM）进行多模态晚期融合，综合各子项预测结果输出最终判断。

研究结果部分，首先在数据集分析中，卒中患者平均NIHSS评分较低（均值3.3±4.2），涵盖轻度病例，且症状分布不均，部分子项如面部瘫痪、上肢运动障碍等变异较大，适合构建判别性模型。其次，模型与EMS性能对比显示，人工智能模型宏F1分数达81.7%–81.8%，较EMS提升约7.2%–7.3%；灵敏度提升约11.7%–12.3%，表明模型显著降低假阴性率；特异度略高于EMS，但差异未达显著水平。消融实验表明，移除面部瘫痪或构音障碍子项会导致灵敏度明显下降，证实其在阳性识别中的关键作用。分项性能分析发现，EMS在最佳凝视任务上灵敏度最低（48.8%），而模型提升至66.7%；在失语与构音障碍检测中，模型全面优于EMS，尤其在合并两种语言障碍为同一标签时，模型宏F1分数可达86.3%。

讨论部分指出，模型优势在于捕捉人类易忽视的细微神经体征，尤其在语音及凝视评估方面表现突出。但也存在局限，包括缺乏外部多中心验证、人群多样性不足及真实院前环境部署尚未实现。研究人员强调，当前结果为回顾性评估，未来需在多个EMS中心进行前瞻性验证，结合常规量表（如CPSS、FAST、BE-FAST等）开展现场测试，并评估系统在实际急救流程中的可用性、时间成本及人员接受度。结论认为，人工智能辅助的院前卒中症状检测在准确性与灵敏度方面优于传统人工评估，有望改善患者分流与救治时效，但仍需前瞻性真实世界研究验证其临床效益。

联系信箱：

粤ICP备09063491号

热点排行