隆乳术评估:人工智能用于患者教育与咨询的知识准确性、实用性与可及性

《Aesthetic Plastic Surgery》:An Evaluation of Breast Augmentation: Accuracy, Utility, and Accessibility of Knowledge for Patient Education and Consultation with Artificial Intelligence

【字体: 时间:2026年06月19日 来源:Aesthetic Plastic Surgery 2.8

编辑推荐:

  背景 本研究旨在比较Google Gemini和ChatGPT-4.5在回答12个最常问及的隆乳术问题上的表现。研究人员的研究凸显了人工智能模型在术前患者教育中日益重要的地位及性能差异。方法 基于用户参与度指标,从Realself网站获取12个最常问及的隆乳术

  
背景 本研究旨在比较Google Gemini和ChatGPT-4.5在回答12个最常问及的隆乳术问题上的表现。研究人员的研究凸显了人工智能模型在术前患者教育中日益重要的地位及性能差异。方法 基于用户参与度指标,从Realself网站获取12个最常问及的隆乳术问题。研究人员将这些问题同时输入Google Gemini和ChatGPT-4.5。来自两个平台的信息由十位持有欧洲整形重建与美容外科委员会(EBOPRAS)认证的整形外科医生进行分析和评估。这些医生在评估前就全球质量评分(GQS)量表的应用达成共识,并对答案来源不知情。采用GQS量表进行评估。结果 将获得的平均结果相互比较。Google Gemini回答的平均得分为2.842,ChatGPT-4.5回答的平均得分为3.867。采用Wilcoxon符号秩检验进行计算。根据全球质量评分(GQS),ChatGPT-4.5的回答在统计学上优于Google Gemini(p = 0.003)。结论 虽然关于整形外科中人工智能的研究正在兴起,但通过委员会认证的整形外科医生进行盲法评估来专门比较ChatGPT与Gemini在隆乳术患者教育中的应用的研究仍然有限。研究人员认为,人工智能驱动的聊天机器人为患者教育提供了显著优势,但应谨慎使用。尽管伦理问题依然存在,本研究强调了ChatGPT在向患者告知整形手术程序方面的实用性,并强调需要谨慎使用和协作以在最大化获益的同时最小化风险。证据等级 V(本杂志要求作者为每篇文章指定证据等级。关于这些循证医学评级的完整描述,请参阅目录或在线作者指南 www.springer.com/00266。)
隆乳术(breast augmentation)是全球最常见的整形手术之一。患者通常通过网络平台获取术前信息,但信息质量参差不齐,传统搜索引擎和人工咨询各有局限。近年来,人工智能(AI)聊天机器人如ChatGPT和Google Gemini被用于患者教育,然而专门针对隆乳术领域、由委员会认证外科医生进行盲法比较的研究仍属空白。为填补这一缺口,研究人员从在线平台Realself(年访问量6500万次,拥有超过8000名医生顾问)筛选出12个用户最常问及的隆乳术相关问题,全面评估两个AI系统在回答准确性、实用性和可及性方面的表现,旨在明确哪一平台能更有效辅助术前教育、缩短咨询时间并提升患者理解。

研究人员将12个问题分别提交给Google Gemini和ChatGPT-4.5,由10位持有欧洲整形重建与美容外科委员会(EBOPRAS)认证的整形外科医生采用全球质量评分(GQS,一种评估健康信息质量的分级量表)进行盲法评分。结果显示,ChatGPT-4.5的平均GQS得分(3.867)显著高于Google Gemini(2.842),Wilcoxon符号秩检验确认差异具有统计学意义(p = 0.003),且效应量极大(Cohen's d = 1.35)。这一发现表明,ChatGPT在提供结构清晰、患者友好的隆乳术相关信息方面优于Gemini,可作为术前教育的有力补充工具。论文发表在《Aesthetic Plastic Surgery》,强调了AI聊天机器人在临床实践中的辅助价值,同时呼吁谨慎使用以避免伦理风险。

关键技术方法(不超过250字):本研究基于Realself网站的用户参与度指标,确定12个关于隆乳术的最常见问题。将这些问题同时输入Google Gemini和ChatGPT-4.5。由10位持有EBOPRAS认证的整形外科医生,在预先就GQS量表应用达成共识后,对答案来源不知情的前提下进行盲法评分。采用Wilcoxon符号秩检验比较两组平均GQS得分,并计算Cohen's d效应量。所有评估均以全球质量评分量表为标准。

### 总体评分结果
对每个AI平台,10位评估者针对12个问题共产生120项个体评分。ChatGPT-4.5的总体平均GQS为3.88 ± 0.43,而Google Gemini为2.78 ± 0.49。通过配对分析,ChatGPT的得分显著更高。

### 统计检验结果
配对样本t检验显示,两平台之间差异显著(t = 4.68,p < 0.001)。Wilcoxon符号秩检验进一步确认了这一差异(W = 7.0,p = 0.009)。两种统计方法均表明ChatGPT-4.5在GQS上优于Google Gemini。

### 效应量结果
效应量分析显示差异极大:Cohen's d为1.35,Wilcoxon效应量(r)为0.72,均支持ChatGPT-4.5的显著优势。该结果表明,两个AI平台在回答质量上的差距在实际应用中具有临床意义。

讨论部分指出,AI聊天机器人应作为手术咨询的补充而非替代。ChatGPT能够提供结构化的术前术后信息,但缺乏个性化方案。类似研究(如Yun等2023、Garg等2024)也证实了AI在患者教育中的潜力,但强调需医生验证。尽管存在伦理隐患,如部分AI回答可能不恰当,本研究通过盲法外科医生评估,凸显了ChatGPT在隆乳术教育中的实用性。结论翻译:研究人员证明ChatGPT提供的回答平均得分显著高于Google Gemini。虽然关于AI在整形外科中的研究正在兴起,但专门比较ChatGPT和Gemini在隆乳术患者教育中采用盲法评估的研究仍然有限。总之,研究人员认为AI驱动的聊天机器人为患者教育提供了显著优势,但在评估风险后应谨慎使用。尽管伦理问题依然存在,本研究强调了ChatGPT在告知患者整形手术程序方面的实用性,强调需要谨慎使用和协作以最大化获益并最小化风险。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号