今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

神经符号大型语言模型系统在胆管炎管理方面的性能与常规人工智能模型及人类专家的对比

《BMC Medical Informatics and Decision Making》:Performance comparison of a neuro-symbolic large language model system versus conventional AI models and human experts in cholangitis management

【字体: 大 中 小 】 时间:2026年06月03日 来源:BMC Medical Informatics and Decision Making 3.8

编辑推荐:

  摘要背景大型语言模型(LLMs)在医疗决策支持方面展现了良好的效果;然而,它们在处理复杂的肝胆疾病方面的有效性尚未得到充分研究。我们开发了一种基于遗传学和神经符号学的LLM系统,该系统整合了多个AI代理和神经符号推理技术来管理胆管炎,并将其性能与传统LLMs及人类专家进行了比较。

  

摘要

背景

大型语言模型(LLMs)在医疗决策支持方面展现了良好的效果;然而,它们在处理复杂的肝胆疾病方面的有效性尚未得到充分研究。我们开发了一种基于遗传学和神经符号学的LLM系统,该系统整合了多个AI代理和神经符号推理技术来管理胆管炎,并将其性能与传统LLMs及人类专家进行了比较。

方法

这项多中心横断面研究包含了来自美国内科委员会(ABIM)胃肠病学亚专业考试的30个基于案例的问题,涉及急性胆管炎。这些问题被分为诊断(n=10)、治疗(n=10)和并发症/预后(n=10)三个类别。通过LangGraph调度的遗传神经符号LLM系统的表现与Claude 4.5 Sonnet、ChatGPT 5.2、Gemini 2.0 Flash、来自土耳其四个三级医院的10位胃肠病学专家以及4位急诊医学医生的表现进行了对比。

结果

遗传神经符号系统取得了最高的整体准确率(100%,30/30),显著优于Claude 4.5 Sonnet(90.0%)、ChatGPT 5.2(60.0%)、Gemini 2.0 Flash(63.3%)、胃肠病学专家(平均95.7% ± 3.2%)和急诊医学医生(平均84.2% ± 8.8%)。该系统在所有类别和胆管炎亚型中都表现优异。在人类参与者中,胃肠病学专家在治疗决策方面的表现优于急诊医生(p=0.012),并且其整体表现与Gemini 2.0 Flash相当(p=0.034)。

结论

与所有传统AI模型和人类专家相比,遗传神经符号LLM系统在胆管炎管理方面表现出更高的准确性。这项概念验证研究表明,具有神经符号推理能力的多智能体架构可能为复杂肝胆疾病的AI辅助临床决策支持提供有前景的方向,尽管在广泛应用之前仍需进行前瞻性临床验证。

背景

大型语言模型(LLMs)在医疗决策支持方面展现了良好的效果;然而,它们在处理复杂的肝胆疾病方面的有效性尚未得到充分研究。我们开发了一种基于遗传学和神经符号学的LLM系统,该系统整合了多个AI代理和神经符号推理技术来管理胆管炎,并将其性能与传统LLMs及人类专家进行了比较。

方法

这项多中心横断面研究包含了来自美国内科委员会(ABIM)胃肠病学亚专业考试的30个基于案例的问题,涉及急性胆管炎。这些问题被分为诊断(n=10)、治疗(n=10)和并发症/预后(n=10)三个类别。通过LangGraph调度的遗传神经符号LLM系统的表现与Claude 4.5 Sonnet、ChatGPT 5.2、Gemini 2.0 Flash、来自土耳其四个三级医院的10位胃肠病学专家以及4位急诊医学医生的表现进行了对比。

结果

遗传神经符号系统取得了最高的整体准确率(100%,30/30),显著优于Claude 4.5 Sonnet(90.0%)、ChatGPT 5.2(60.0%)、Gemini 2.0 Flash(63.3%)、胃肠病学专家(平均95.7% ± 3.2%)和急诊医学医生(平均84.2% ± 8.8%)。该系统在所有类别和胆管炎亚型中都表现优异。在人类参与者中,胃肠病学专家在治疗决策方面的表现优于急诊医生(p=0.012),并且其整体表现与Gemini 2.0 Flash相当(p=0.034)。

结论

与所有传统AI模型和人类专家相比,遗传神经符号LLM系统在胆管炎管理方面表现出更高的准确性。这项概念验证研究表明,具有神经符号推理能力的多智能体架构可能为复杂肝胆疾病的AI辅助临床决策支持提供有前景的方向,尽管在广泛应用之前仍需进行前瞻性临床验证。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:遗传神经符号|胆管炎准确率|多智能体架构|AI辅助决策|美国内科委员会|概念验证研究

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号