人工智能聊天机器人应答患者关于脊索瘤常见问题的横断面研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Brain and Spine》：Artificial intelligence chatbots in response to patient’s common inquiries about chordoma: A cross-sectional study

【字体：大中小】 时间：2026年06月04日 来源：Brain and Spine 2.5

编辑推荐：

　　引言：人工智能（AI）聊天机器人在许多常见疾病中已被广泛研究，然而，关于脊索瘤这一具有高复发率、高致残率和高死亡率的罕见疾病的报道却很少。研究问题：本研究旨在评估肿瘤科医生和最先进的AI聊天机器人在应答真实世界中脊索瘤患者常见问题（FAQs）方面的表现。应答表

引言：人工智能（AI）聊天机器人在许多常见疾病中已被广泛研究，然而，关于脊索瘤这一具有高复发率、高致残率和高死亡率的罕见疾病的报道却很少。研究问题：本研究旨在评估肿瘤科医生和最先进的AI聊天机器人在应答真实世界中脊索瘤患者常见问题（FAQs）方面的表现。应答表现主要通过整体质量、共情和可读性进行评估。材料与方法：从社交媒体收集的60个脊索瘤相关FAQs由多种聊天机器人和肿瘤科医生作答，并对表现最佳聊天机器人生成的文本进行进一步编辑和重新评估。评分以盲法方式对质量和共情进行排序。通过计算Flesch-Kincaid年级水平（FKGL）、自动可读性指数（ARI）和Gunning-Fog指数（GFI）客观测量可读性。结果：AI聊天机器人在应答质量（3.86±0.14 vs. 3.12±0.25，p<0.001）和共情（3.28±0.41 vs. 2.95±0.48，p<0.001）方面普遍优于肿瘤科医生。DeepSeek-R1在应答质量上获得最高评分（4.20±0.22），而Claude 3.5 Sonnet经综合评估被认为是最佳聊天机器人。从患者角度，聊天机器人起草的应答更易于理解（p<0.001）。经肿瘤科医生编辑Claude-3.5生成的应答后，应答质量（4.09±0.12，p<0.001）、共情（4.00±0.39，p<0.001）和可读性（FKGL：11.30±2.42，p<0.001）均得到改善。讨论与结论：AI聊天机器人在应答脊索瘤相关FAQs时达到了良好的质量和共情表现，并产生了与肿瘤科医生相当的可读性。在生成式聊天机器人的辅助下，肿瘤科医生在解答脊索瘤患者的常见问题时可能更加全面和高效。

**论文解读**
**研究背景**
脊索瘤（chordoma）是一种起源于胚胎发育期间脊索残留的罕见恶性骨肿瘤，治疗手段有限且复发率高。不同于其他常见癌症，除专门从事神经/脊柱外科或放疗的专科医生外，多数肿瘤科医生对该病并不熟悉，导致患者难以在初诊时获得及时、标准化的治疗。尽管互联网资源提供了初级医疗信息，但患者常被错误或偏颇的指导误导。近年来，基于大语言模型（LLMs）的生成式人工智能（AI）聊天机器人在数字健康领域带来变革，能以快速且用户友好的方式模拟临床医生生成准确全面的信息。鉴于罕见病临床病例有限，AI聊天机器人理论上更具优势。然而，截止研究开展，AI聊天机器人在脊索瘤管理中的表现尚未被系统评估。
**研究内容与结论**
研究人员收集了60个来自真实世界的脊索瘤患者常见问题（FAQs），由五款最新AI聊天机器人（ChatGPT-4o、ChatGPT-o1 preview、Claude-3.5 Sonnet、Gemini-2.0 flash exp、DeepSeek-R1）及神经肿瘤科初级和高级医生分别作答，通过盲法评分评估应答质量（采用“5C”标准：正确性、连贯性、关联性、清晰性、完整性）、共情（情绪共鸣、观点采择、共情表达）和可读性（FKGL、ARI、GFI）。随后，由资深肿瘤科医生编辑表现最佳聊天机器人（Claude-3.5 Sonnet）生成的文本，并重新评估。研究发现，AI聊天机器人在应答质量和共情上均显著优于肿瘤科医生；DeepSeek-R1在质量评分上最高，Claude-3.5 Sonnet综合表现最佳。客观可读性指标显示两者相当，但从患者角度，聊天机器人应答更易理解。在医生编辑后，应答质量、共情及可读性进一步提升。该研究证实了AI聊天机器人在罕见病咨询中的潜力，且辅助医生可提高效率和应答质量。论文发表于《Brain and Spine》。
**关键技术方法**
本研究为横断面设计，经上海长征医院机构审查委员会批准。问题来源：从社交媒体收集FAQs，结合脊索瘤基金会、欧洲肿瘤内科学会、美国国家综合癌症网络等机构资料，最终由25例2024年1–6月治疗的脊索瘤患者及其家属验证形成60个问题。参与者包括五款LLM聊天机器人（更新日期截至2025年1月）和六名医生（初级和高级各三名，来自神经肿瘤科）。主要评估指标：质量（5C评分，1–5分）、共情（针对第一人称问题，三项子维度评分）、可读性（FKGL/ARI/GFI）。客观认知负荷通过平均依存距离（MDDS）和词汇多样性（LDS）计算。患者角度可读性由五名独立脊索瘤患者盲评。统计使用方差分析和Tukey检验。
**研究结果**
**应答质量**
各聊天机器人在总体质量及每个子成分上均优于初级和高级肿瘤科医生（p<0.001）。平均评分：聊天机器人3.86±0.14 vs. 医生3.12±0.25（p<0.001）。DeepSeek-R1获得最高总体质量（4.20±0.22）及所有子成分最高分。
**共情**
聊天机器人总体共情评分高于医生（3.28±0.41 vs. 2.95±0.48，p<0.001）。Claude-3.5 Sonnet在总体共情、情绪共鸣、观点采择和共情表达上均最佳（分别为3.68±0.44、3.21±0.53、3.45±0.51、4.37±0.48）。
**可读性**
客观可读性指标方面，聊天机器人与医生水平相似（FKGL：12.59±1.83 vs. 12.87±1.91，p=0.228；ARI：12.18±1.86 vs. 11.88±2.31，p=0.291；GFI：17.10±2.31 vs. 17.45±2.35，p=0.213）。但从患者角度，聊天机器人应答更易理解（3.87±0.18 vs. 2.92±0.26，p<0.001）。
**认知负荷**
聊天机器人在MDDS方面优于医生（3.12±0.022 vs. 3.39±0.62，p=0.001），但LDS无显著差异（0.675±0.039 vs. 0.673±0.048，p=0.768）。聊天机器人平均词数（116.0±8.5）多于医生（88.8±22.0，p<0.001），但词数与质量无显著正相关（p=0.068）。
**AI辅助编辑的效果**
以Claude-3.5 Sonnet为最佳聊天机器人，医生编辑后的应答质量（4.09±0.12）显著高于仅医生（3.35±0.36）和仅AI（4.00±0.19）（均p<0.001）；共情评分（4.00±0.39）较仅医生提高26.8%、较仅AI提高8.8%（均p<0.001）；可读性指标（FKGL：11.30±2.42，ARI：10.30±2.63，GFI：15.75±2.77）均显著降低（p<0.001），阅读难度下降。认知负荷MDDS降低，LDS无变化。词数无显著差异。
**总结与讨论**
本研究证实，AI生成式聊天机器人在脊索瘤患者咨询中的应答质量和共情表现普遍优于医护人员，且从患者视角更易理解。通过医生二次编辑，可进一步优化质量、共情和可读性，同时减轻临床工作负担，尤其有利于初级医生学习。但需警惕AI幻觉问题（生成错误信息），用户应核对可靠来源。研究存在局限性：FAQs来自单中心小样本队列（25例患者），缺乏多中心大样本验证；聊天机器人未整合患者个体化信息（年龄、性别、病史等）；评估存在主观性；未收集患者对共情的直接感受；非英语版本泛化性待验证；AI自学习可能引入有害信息。
**研究结论**
这项横断面研究表明，AI生成式聊天机器人在脊索瘤患者咨询中普遍优于医疗专业人员。AI辅助还能使临床医生更高效地工作，同时提高应答质量、共情和可读性。需要在大规模全球队列和多模态数据中进行严谨研究，以规范化并促进生成式AI在临床中的应用。

联系信箱：

粤ICP备09063491号

热点排行