《Bioengineering》:An Agentic LLM Framework for Autonomous Surgical Continuum Monitoring: ReAct-Driven Tool-Use Agents for Presurgical, Intraoperative, and Postsurgical Cardiopulmonary Care
编辑推荐:
背景:基于规则的多智能体系统(Multi-Agent System, MAS)架构用于医疗协调时依赖硬编码决策树,无法泛化至新颖临床场景或自我纠正推理错误。这一局限性在外科连续期监护中尤为突出——患者需经历术前风险评估、术中监测、术后ICU、病房护理及远程康复
背景:基于规则的多智能体系统(Multi-Agent System, MAS)架构用于医疗协调时依赖硬编码决策树,无法泛化至新颖临床场景或自我纠正推理错误。这一局限性在外科连续期监护中尤为突出——患者需经历术前风险评估、术中监测、术后ICU、病房护理及远程康复,历时数周,固定策略的智能体架构无法在不进行 prohibitive规则工程的前提下应对此复杂性。目的:研究人员提出首个用于端到端自主外科连续期监护的Agentic大语言模型(Large Language Model, LLM)框架,取代先前的基于规则MAS数字孪生(Digital Twin)。六個ReAct驱动的Tool-Use Agents取代固定策略智能体,具备动态推理、多跳证据检索及Reflexion自我校正能力,同时在每处改变照护路径的决策点维持强制的置信度门控人机协同(Human-in-the-Loop, HITL)机制。方法:该框架基于ReAct范式与Reflexion自我评价,嵌入DETER数字孪生状态引擎S(t)。每个智能体由ReAct循环签名、十函数临床工具注册表及置信度门控HITL上报逻辑指定。智能体间协调以LLM中介的协调督导智能体(Coordination Supervisor Agent)取代基于规则的优先队列管理器,对竞争性资源请求进行推理。结果:该框架实现了:(i)六个形式化指定的ReAct循环智能体,含显式工具注册表与授权边界;(ii)置信度门控HITL架构,降低警报疲劳同时保障模糊临床场景安全性;(iii)扩展的冲突解决函数P(p,t,context),纳入手术阶段与DETER恶化轨迹梯度;(iv)带形式化Nmax=2终止条件与临床事实核验层(Clinical Factuality Verification Layer, CFVL)的Reflexion自我校正;(v)扩展至多阶段外科连续期的数字孪生状态引擎S(t)。结论:所提框架代表临床AI架构从基于规则系统向动态推理、从静态检索向多跳工具链、从固定上报阈值向置信度门控自我评价的根本性转变,为下一代自主外科监护协调提供了形式化指定、可临床部署的基础。
论文解读:《Bioengineering》—用于外科连续期监护的自主式Agentic LLM框架:基于ReAct驱动工具使用智能体的术前、术中及术后心肺监护
研究背景与立题依据
既往用于医疗协调的多智能体系统(Multi-Agent System, MAS)多为基于规则(ruled-based)的架构,其智能编码于固定决策树或PPO(Policy Proximal Optimization)策略中,无法泛化至设计时未预见的临床场景(如术后患者出现心律失常合并伤口感染及肾功能损害的非典型组合)。外科连续期(从术前风险评估经术中监测至术后ICU、病房及远程康复)时间跨度大、协调复杂,尚无研究提出跨全阶段的自主多智能体架构。研究人员以先前开发的DETER框架数字孪生(Digital Twin)为基础,用基于ReAct(Reasoning + Acting)范式与Reflexion自我评价的Agentic大语言模型(Large Language Model, LLM)取代原有硬编码智能体,旨在解决规则系统泛化性差与无法动态推理的问题,并通过置信度门控人机协同(Human-in-the-Loop, HITL)平衡安全性与警报疲劳。
主要关键技术方法
研究人员在保留DETER数字孪生核心状态引擎S(t)={B(t), P(t), R(t), C(t), Ω(t), Φ(t)}(新增Φ(t)记录手术阶段等外科背景向量)的基础上,将Layer 5–7的规则智能体替换为六类ReAct循环LLM智能体,各智能体配有十函数临床工具注册表(含DETER恶化预测、RAG检索、FHIR数据访问、资源协调等),工具调用受三层授权模型(范围/最小授权等级/数字孪生临床安全过滤器)约束。引入Reflexion自我评价循环(Nmax=2终止),并在Reason与Act间插入临床事实核验层(Clinical Factuality Verification Layer, CFVL)校验数值、指南引用及药物禁忌。HITL触发条件含置信度<0.75、新场景检测、强制操作类别及优先度平局。协调层以LLM中介的Coordination Supervisor Agent取代优先队列管理器,采用扩展冲突解决函数P(p,t,context)=w1·f1(acuityp)+w2·f2(WTp(t))+w3·f3(CRp(t))+w4·f4(phasep(t))+w5·f5(?DETERp(t))解决资源竞争。RAG知识库扩展为七源多阶段外科知识图谱(含PubMed术式结局、ESC/AHA/ACC/STS/NICE指南、FHIR患者状态、SNOMED-CT+ICD-11、BNF/RxNorm药物相互作用、机构匿名化结局数据及DETER预测历史),支持多跳检索。安全不变式包括:修改照护路径须HITL确认、禁止调出注册表工具、审计日志不可篡改且经密码签名、智能体失效时激活规则回退(fallback)。
研究结果
Architectural transformation(架构转换)
研究人员将原有五个基于规则的MAS智能体替换为六个ReAct驱动的Tool-Use Agents(术前风险评估Agent、术中监测Agent、DETER监测核心Agent、资源分配Agent、出院与康复Agent、协调督导Agent),并形式化指定各智能体的ReAct循环签名、工具注册表及授权/HITL门控,证明硬编码决策函数可映射为动态推理能力。
Surgical continuum adaptation(外科连续期适配)
研究人员将原先聚焦急诊科(ED)的架构适配至术前至出院后心肺监护连续期,按手术阶段(术前稳定/术后>72h稳定/术后24–72h/术后<24h或术中)设定各智能体激活波段及Φ(t)上下文读取权限,使智能体依手术阶段自适应推理而无须显式跨阶段交接协议。
Tool registry specification(工具注册表规范)
研究人员定义了含十个形式化函数的临床工具注册表(如FHIR_patient_read()、DETER_predict()、RAG_retrieve()、HITL_escalate()、audit_log()等),明确输入参数、返回模式、授权要求与审计记录,使智能体能以运行时工具调用访问恶化预测、循证检索及FHIR数据。
Confidence-gated HITL(置信度门控人机协同)
研究人员以智能体自评推理置信度(默认阈值θ=0.75,通过系统提示词正则提取CONFIDENCE值,缺失时置0强制HITL)取代固定阈值上报,高置信度例行性操作免HITL以减少警报疲劳,低置信度或新颖场景、强制操作类别(手术计划修改、出入院过渡、麻醉方案建议)及优先度平局(|P(p,t)?P(p',t)|<0.01)强制触发HITL,并给出Platt scaling与isotonic regression校准方案(基于94例DETER验证队列)。
Extended conflict resolution(扩展冲突解决)
研究人员在原P(p,t)中加入手术阶段紧迫性修正项f4(phasep(t))(取值0.0/0.3/0.6/0.9)与DETER恶化轨迹梯度项f5(?DETERp(t))(正常化且负梯度归零),默认权重w=(0.40, 0.15, 0.20, 0.15, 0.10);冲突经Stage 1自动分辨(ΔP>εauto=0.05则高优先级执行,?DETER快速上升通常覆盖资源标记)→Stage 2 LLM中介推理→Stage 3 置信度不足时自动HITL→Stage 4 涉及出入院或麻醉/手术方案修改时强制HITL。
Agent Specifications(智能体详述)
- •
Preoperative Risk Stratification Agent:于签署手术同意书激活,调用FHIR_patient_read()、EuroSCORE_calc()、STS风险计算器API及phase_filter="presurgical"的RAG_retrieve(),合成围术期风险报告(30天死亡率/卒中/肾衰/ prolonged ventilation),属强制HITL写入FHIR手术计划记录,缺数据时可生成结构化数据请求。
- •
Intraoperative Monitoring Agent:术中以默认60s窗读取biosensor_stream_read()与anaesthesia_monitor_api(),运行DETER_predict()评估与CPB转流脱机/皮肤缝合等手术阶段匹配的血流动力学不稳定意义,记录CPB_event_log()更新Φ(t),依置信度门控发布alert_publish()。
- •
DETER Monitoring Agent (Core):ICU入院至出院持续运行,每5–10 min取144步生理窗口与EMR增量运行DETER_predict()得6 h/24 h/7天风险分及特征重要性,风险>0.6时调RAG_retrieve()获支持性证据,合成推荐并记录FHIR_observation_write()与NEWS2_calc()对照;Reflexion可识别传感器伪迹致AUC异常跳变并复查用药记录后修订推理以降低假阳性。
- •
Resource Allocation Agent:以DT_state_read()与examination_order_evaluate()评估申请单对应当前手术阶段、DETER分及资源可得性,ICU高DETER用高敏方案、step-down稳定用保守方案,符合HEART方案者调ECG_coordinate()确保筛查不漏。
- •
Discharge and Rehabilitation Agent:算出LACE_plus_calc()、DETER 7天风险轨迹及PROM_schedule()问卷,RAG_retrieve()出院时机证据,生成远程监测强度建议并调CAREPOI_remote_init(),出入院转换强制HITL。
- •
Coordination Supervisor Agent:监视agent_health_monitor()、资源竞争队列及OPEL激增等级,调conflict_resolve_P()得扩展优先度分并生成Chain-of-Thought理由,OPEL超限时实例化MCI Coordinator子智能体暂停择期手术路径。
讨论与结论翻译
讨论指出本框架尚未报告前瞻性临床实施,局限含LLM幻觉风险(CFVL与Reflexion部分缓解)、ReAct+Reflexion周期延迟约800–1500 ms(时间危急时代之以规则回退<100 ms响应)、置信度自评需基于94例DETER队列校准(Platt scaling/isotonic regression,临床损失函数α/β初设3)、BioMistral-7B/Meditron-70B须在去标识心脏手术病例上微调与前瞻性验证。并发多患者负载估算显示10例同期患者在双A100或四A100配置下有20–30倍余量。未来工作规划含大学帕特拉斯心胸外科临床试点、对抗性测试、置信度校准、并行负载延迟测评及引入State-Space Model(Mamba)或Neural ODE后端。
结论翻译:研究人员提出了首个用于自主外科连续期监护的Agentic LLM框架,以六个具ReAct驱动、Reflexion装备及工具使用的智能体取代先前MAS数字孪生的基于规则逻辑,覆盖术前—术中—术后心肺监护连续期。该架构转变具根本性——从执行预定义计划到生成计划,从静默失败于新场景到表达不确定性并上报,从固定权重冲突解决到带Chain-of-Thought理由的上下文推理。置信度门控HITL架构通过将上报锚定于智能体表达的推理不确定性而非固定阈值,减少不必要人为中断同时加强对真正模糊场景的监督。所提供的形式化规范(ReAct循环签名、工具注册表、扩展P(p,t,context)函数、安全不变式及EU AI Act合规映射)为下一代自主外科监护协调的拟临床研究实施与评价奠定了架构基础。结合DETER恶化预测算法与循证RAG临床决策支持架构,该框架构成完整、形式化指定且具临床可部署性的智能监护生态系统,用于术后心肺监护。