《Egyptian Journal of Neurosurgery》:Blinded comparative evaluation of AI-generated and social media–based medical advice in carpal tunnel syndrome
编辑推荐:
摘要
背景:腕管综合征(Carpal Tunnel Syndrome, CTS)是最常见的周围神经卡压疾病,且是神经外科咨询的常见适应症。患者在临床评估前越来越多地从人工智能(AI)聊天机器人及社交媒体平台获取医疗信息。这些数字信息来源在CTS方面的比较质
摘要
背景:腕管综合征(Carpal Tunnel Syndrome, CTS)是最常见的周围神经卡压疾病,且是神经外科咨询的常见适应症。患者在临床评估前越来越多地从人工智能(AI)聊天机器人及社交媒体平台获取医疗信息。这些数字信息来源在CTS方面的比较质量与安全性尚不明确。本研究的目的是采用盲法、多评分者评估框架,系统比较AI生成的医疗建议与社交媒体影响者生成的关于CTS的内容的质量。具体目标包括:(i) 量化两种信息来源在准确性、安全性、清晰度及循证一致性方面的差异;(ii) 描述社交媒体来源的平台层面变异性;(iii) 评估专家评估的评分者间信度。
方法:在这项盲法比较研究中,研究人员开发了25个面向患者的CTS问题,以反映神经外科及周围神经实践中常见的咨询内容。研究人员从ChatGPT(GPT-4)以及TikTok、Instagram和YouTube上高覆盖率的社交媒体影响者处生成匹配的回复(总回复数n=50)。三名独立专家评分员在四个维度(准确性、安全性、清晰度、循证一致性)上对每项回复进行评分,每个维度采用0–5分制(总分0–20)。进行配对统计分析,并使用组内相关系数(Intraclass Correlation Coefficient, ICC)评估评分者间信度。
结果:AI生成的回复在总分上显著高于社交媒体影响者内容(17.1±0.9 vs. 12.4±1.4;p<0.001;Cohen’s d=3.23)。在所有维度上均观察到更优表现:准确性(4.3±0.3 vs. 3.1±0.5)、安全性(4.4±0.4 vs. 3.1±0.6)、清晰度(4.2±0.4 vs. 3.6±0.5)及循证一致性(4.1±0.5 vs. 2.7±0.8)(所有p<0.001)。在平台中,YouTube得分高于Instagram和TikTok,但所有这些平台仍低于AI生成的回复。评分者间信度良好(总体ICC=0.76)。
结论:在这项盲法专家评估中,AI生成的回复提供了比社交媒体影响者内容更准确、更安全且更符合循证医学的CTS信息。尽管AI系统不能替代临床评估,但它们可作为周围神经疾病患者教育的结构化辅助手段。社交媒体内容中观察到的变异性突显了神经外科医生参与引导患者获取可靠数字健康资源的必要性。
**论文解读:AI生成与社会媒体来源的腕管综合征医疗建议的盲法比较评估**
**研究背景与问题**
腕管综合征(Carpal Tunnel Syndrome, CTS)是最常见的周围神经卡压疾病,全球成人患病率估计为3%–6%,在某些职业群体中更高。该病以腕部正中神经受压为特征,常表现为夜间感觉异常、手部麻木、无力及进行性功能损害,是周围神经手术最常见的适应症之一,并构成大量门诊神经外科咨询。近年来,数字健康生态深刻改变了传统医患信息动态:超过80%的互联网用户在正式临床评估前在线搜索健康信息,人工智能(AI)聊天机器人与社交媒体平台成为重要的医疗信息来源。然而,这些数字信息来源在CTS方面的质量与安全性尚未得到充分定义。既往研究显示,基于互联网的CTS教育资源常不完整、难以阅读或与临床指南不一致,而社交媒体(如TikTok、Instagram、YouTube)内容中存在大量健康错误信息,甚至由自称医疗专业人士的个人发布。考虑到延迟就诊可能导致不可逆的轴突损伤,错误信息在周围神经疾病中的神经外科意义重大。为此,研究人员开展了一项盲法、多评分者比较研究,旨在系统评估AI生成与社交媒体影响者生成的CTS医疗建议质量。
**研究方法**
研究人员开发了25个面向患者的CTS问题,涵盖症状识别、诊断、保守治疗、手术决策、预后及并发症等临床全谱系。使用ChatGPT(GPT-4)通过标准公开网页接口为每个问题生成回复(每次独立会话,无额外提示)。对应社交媒体内容通过系统搜索TikTok、Instagram和YouTube选定,纳入标准包括:发布者粉丝数≥50,000、内容发布于前24个月内、英文语言。最终获得25对匹配回复(AI vs. 社交媒体)。三名独立专家评分员(手外科医生、周围神经专长神经外科医生、电诊断医学理疗师)在盲法状态下,对每个回复在四个维度(准确性、安全性、清晰度、循证一致性)上采用0–5分制评分,总分0–20。进行配对t检验、Cohen’s d效应量、线性混合效应模型及组内相关系数(ICC)分析。
**研究结果**
- **总体质量比较**:AI生成回复的总分(17.1±0.9)显著高于社交媒体影响者内容(12.4±1.4),配对差异平均4.7分(95% CI: 4.1–5.3, p<0.001),效应量极大(Cohen’s d=3.23)。
- **各领域表现**:AI在所有维度均优于社交媒体:准确性(4.3±0.3 vs. 3.1±0.5, p<0.001)、安全性(4.4±0.4 vs. 3.1±0.6, p<0.001)、清晰度(4.2±0.4 vs. 3.6±0.5, p<0.001)、循证一致性(4.1±0.5 vs. 2.7±0.8, p<0.001)。
- **定性观察**:影响者内容中常见模式包括低估持续性症状严重性、推广未经支持的自干预措施、未建议寻求医疗评估,这些存在于约三分之一的影响者回复中,导致更低安全性与循证一致性评分。
- **分布分析**:AI回复在各维度显示更窄变异性和更高集中趋势,而影响者内容分散更广,尤其在循证一致性方面。总体分分布显示AI组紧密集中于高分区域,影响者组左偏且异质性更高。
- **平台差异**:社交媒体平台间存在异质性:YouTube总分最高(13.2±1.7),其次为Instagram(12.3±1.0)和TikTok(11.6±0.9),但所有平台均显著低于AI回复。
- **混合效应模型**:在控制问题级别聚类后,信息来源仍是总分显著独立预测因子(p<0.001),说明差异主要源于内容来源而非问题复杂性。
- **评分者间信度**:总体ICC=0.76,表现为良好一致性;AI回复的ICC(0.794)略高于影响者回复(0.733)。
**讨论与结论**
讨论指出,AI生成的CTS信息在准确性、安全性、清晰度与循证一致性上均显著优于社交媒体影响者内容,且效应量大、一致性强。AI回复更稳定地复现核心事实要素(如正中神经解剖、特征性感觉分布、电诊断检查角色),而影响者内容存在常见错误(如将CTS归因于电脑使用、混淆其他神经病变、夸大未验证干预效果)。清晰度优势虽最小,但AI的结构化散文更适合患者自我教育。循证一致性差距最大,突显社交媒体内容在指南一致性上的严重不足。安全性维度差异尤需关注:AI更一致地建议在神经症状持续时寻求临床评估,而部分影响者内容可能延误就诊。平台分析显示YouTube因视频长度较长而提供更全面解释,TikTok和Instagram则受限于格式。AI系统不能替代临床评估,但可作为辅助教育工具。患者对AI的信任与感知(“算法厌恶”)需考虑。未来应评估不同人群的可读性与语言适应性。结论部分翻译如下:
**结论**:在这项关于腕管综合征相关数字健康内容的盲法比较评估中,AI生成的回复在准确性、安全性、清晰度及与既定临床证据的一致性方面均表现出高于社交媒体影响者内容的一致性表现。这些发现表明,对于常见周围神经疾病,大型语言模型目前可能提供比广泛传播的社交媒体来源更具结构性和指南一致性的教育信息。虽然人工智能工具不能替代个体化临床评估,但在适当情境下它们可作为患者教育的有用辅助手段。相反,影响者生成内容中发现的变异性和安全性问题突显了对通过高覆盖社交平台传播的健康信息进行更严格审查的必要性。随着患者在神经外科评估前越来越多地咨询数字资源,临床医生必须主动引导患者获取可靠信息来源,并参与更广泛的数字健康生态系统。持续对新兴技术进行严格评估对于确保医疗信息传递的创新最终支持安全、循证的神经外科护理至关重要。
论文发表在《Egyptian Journal of Neurosurgery》。