《JMIR AI》:AI-Assisted Systematic Literature Review of the Economic Burden of Pneumococcal Disease: Development and Validation Study
编辑推荐:
背景:自动系统文献综述(Systematic Literature Review, SLR)可能减少手动审查的工作量和错误,使更快速、更及时的综述成为可能,即使出版量不断增加。大语言模型(Large Language Models, LLMs)在理解非结构化语
背景:自动系统文献综述(Systematic Literature Review, SLR)可能减少手动审查的工作量和错误,使更快速、更及时的综述成为可能,即使出版量不断增加。大语言模型(Large Language Models, LLMs)在理解非结构化语言方面展现了强大的能力。然而,很少有研究探索一个全面的LLM平台简化整个SLR过程(从文章筛选到数据提取)的潜力。目标:本研究旨在调查应用基于LLM的系统辅助SLR开发的可行性。方法:研究人员开发了智能系统文献综述(Intelligent Systematic Literature Review, ISLaR 2.0)平台,由LLM驱动,并将其应用于肺炎球菌疾病(Pneumococcal Disease, PD)经济负担文献的使用案例。首先,研究人员为SLR建立了纳入和排除标准。其次,研究人员定义了与经济负担和领域知识相关的数据元素,以及应用这些定义的指南。最后,研究人员使用这些标准和数据元素规范来开发用于筛选和数据提取的LLM提示。对于数据提取,研究人员确定了相关的研究特征和经济负担结果。研究人员将ISLaR 2.0的性能与50篇专家精选的PD文章的金标准进行比较,使用标准指标(准确率、精确率、召回率和F1分数)。研究人员还进行了定性分析以描述系统犯的错误。结果:ISLaR 2.0在摘要和全文筛选(摘要筛选的F1分数为86.27,全文筛选的F1分数为87.18)以及从文本中提取数据(研究细节的F1分数为92.83,经济负担结果的F1分数为79.76)方面表现良好。表格经济负担结果数据提取的F1分数为94.83。定性分析揭示了提取经济负担细节的两个主要挑战:成本类别的错误分类和未能提取相关信息。结论:ISLaR 2.0实现了对PD经济负担的SLR的高效执行。该平台允许用户灵活定义和修改标准及数据元素,支持其在广泛的健康研究主题中使用。
在健康科学领域,系统文献综述(Systematic Literature Review, SLR)是综合可靠证据、支持临床决策和监管提交以及识别知识空白的关键工具。然而,传统手动SLR开发耗时且劳动密集,一项研究发现从项目启动到发表通常需要约67周。自动化技术可显著提升SLR效率,大语言模型(Large Language Models, LLMs)已被用于辅助SLR的摘要筛选和全文数据提取等环节。但以往研究多聚焦于单一环节(如文章筛选)或临床主题(如肿瘤或免疫疾病治疗疗效),对流行病学、公共卫生和健康经济学等复杂主题的应用探索不足。经济负担研究评估疾病对个体、医疗系统和社会的财务影响,涉及广泛的临床、流行病学和货币指标,其SLR开发面临独特挑战:研究通常冗长、方法多样、包含大型变量输入表,且需分析多种场景,导致数据提取和时间消耗巨大且难以标准化。为满足这一需求,研究人员开发了基于生成式人工智能(Generative Artificial Intelligence, GenAI)的智能系统文献综述平台ISLaR 2.0,旨在无缝执行从筛选到数据提取的完整SLR流程,并以肺炎球菌疾病(Pneumococcal Disease, PD)经济负担文献为用例,评估其性能。该研究发表在《JMIR AI》。
**关键技术方法**
研究人员利用GPT-4 Turbo和GPT-4o大语言模型构建ISLaR 2.0平台。平台集成文章检索(从PubMed数据库获取PD经济负担文献)、摘要与全文筛选、数据提取及结果总结。用户通过用户界面输入基于PICO(Population, Intervention, Comparison, Outcome)的纳入排除标准、数据元素定义及领域知识,系统据此构建大语言模型提示(prompts)指导任务处理。筛选阶段采用不同严格程度的指令:摘要筛选注重高召回率,全文筛选注重高精度。数据提取分文本和表格两类:文本部分使用GPT-4 Turbo提取研究细节和经济负担结局(含成本类别和资源使用),表格部分利用GPT-4o的图像处理功能将表格作为图像输入以提取结构化经济成本信息。平台采用人机闭环(human-in-the-loop)方法,为每次推荐提供解释,供人类审核和决策。
**研究结果**
**筛选性能**
通过与50篇专家精选PD文章的金标准对比,ISLaR 2.0在摘要筛选和全文筛选上表现良好:摘要筛选的召回率为95.65%,F1分数为86.27;全文筛选的召回率为89.47%,F1分数为87.18。这表明系统在两个阶段均能有效识别合格文章。
**数据提取性能**
在19篇全文相关文章中,13篇包含表格经济成本数据。文本数据提取方面,研究细节的F1分数为92.83,经济负担结局的F1分数为79.76;表格数据提取方面,使用GPT-4o的F1分数达94.83。对于经济负担元素的个体属性(队列、元素、值),F1分数分别为92.55、80.00和84.88。结果表明系统在提取研究特征和表格数据方面表现优异,但文本经济负担结局提取仍有改进空间。
**错误分析**
对系统错误的定性分析揭示:摘要筛选的假阳性主要源于系统错误纳入关注临床结局而非经济负担的文章;全文筛选的假阳性源于高风险人群和年龄组标准误判;假阴性源于研究设计标准(如排除荟萃分析)的错误解读。数据提取错误包括成本类别误分类(如将社会成本标记为直接成本)、未提取有意义数值及遗漏间接成本;表格数据提取错误包括队列信息部分捕获和元素描述细节缺失。
**总结讨论与结论**
讨论部分指出:ISLaR 2.0优势在于实现端到端自动化的SLR流程(从筛选到数据提取),并提供人机闭环接口以增强用户控制;与现有工具(如Trialstreamer、DistillerSR等)相比,ISLaR 2.0在全面性和可推广性上更为突出。然而,GPT-4 Turbo在表格数据提取上存在挑战,而GPT-4o图像处理显著改善了性能。未来方向包括优化提示以更精确提取成本类别、扩展至补充数据审查,以及量化时间节省和成本效益。该研究结论翻译如下:本研究展示了如何利用先进大语言模型(LLM)的能力进行严格的系统文献综述(SLR)任务,以分析肺炎球菌疾病(PD)的经济负担。通过适当的人机闭环审查与监督,ISLaR 2.0可通过减少时间和成本,显著降低SLR开发的人力资源需求。此外,通过提供端到端解决方案,准确识别和提取广泛研究类型中的相关信息,该人工智能系统可加速疾病经济负担及其他研究领域的证据生成。