人工智能聊天机器人解答牙齿美白相关问题的表现：一项多语言比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Oral Health》：Performance of AI chatbots in answering questions on tooth bleaching: a multilingual comparative study

【字体：大中小】 时间：2026年06月19日 来源：BMC Oral Health 3.1

编辑推荐：

　　摘要背景人工智能聊天机器人越来越多地被用于医疗领域，为患者提供健康相关信息并解答疑问。然而，其在修复牙科等专业牙科领域的可靠性尚未得到充分评估。本研究旨在评估并比较五种人工智能聊天机器人系统——ChatGPT-3.5和ChatGPT-4（OpenAI）、Bing Chat（微软）

摘要

背景

人工智能聊天机器人越来越多地被用于医疗领域，为患者提供健康相关信息并解答疑问。然而，其在修复牙科等专业牙科领域的可靠性尚未得到充分评估。本研究旨在评估并比较五种人工智能聊天机器人系统——ChatGPT-3.5和ChatGPT-4（OpenAI）、Bing Chat（微软）、Gemini（谷歌）以及Claude-Instant（Anthropic）——在牙齿美白方面的回答准确性和一致性。

方法

由修复牙科专家确定的15个关于牙齿美白的常见问题被分为本科水平或专业水平问题。所有问题都以土耳其语和英语形式提交给这五种人工智能聊天机器人。在连续三天内，每天用标准化提示语提问三次。两位专家使用五点李克特量表独立评估这些回答，并计算平均分。通过三因素方差分析来探讨聊天机器人类型、知识水平以及问题语言对回答准确性的影响。同时使用Cohen’s kappa系数来评估评估者之间的共识程度。统计显著性标准设定为

?

结果

聊天机器人类型对回答准确性有显著影响（p??0.05）。不过，聊天机器人类型与知识水平之间、以及聊天机器人类型与问题语言之间存在显著交互作用（p??0.05）。

结论

聊天机器人生成的关于牙齿美白的信息的准确性在很大程度上取决于所使用的具体人工智能模型。先进的大型语言模型，尤其是ChatGPT-4，能生成比其他测试系统更准确、更一致的回答。因此，人工智能聊天机器人不应被视为可互相替代的临床信息来源，其输出内容应谨慎解读，并在专业指导下进行核实。

临床意义

这些研究结果强调了批判性评估人工智能生成的健康信息的重要性，同时也表明聊天机器人的回答不能替代专业的临床咨询。

背景

人工智能聊天机器人越来越多地被用于医疗领域，为患者提供健康相关信息并解答疑问。然而，其在修复牙科等专业牙科领域的可靠性尚未得到充分评估。本研究旨在评估并比较五种人工智能聊天机器人系统——ChatGPT-3.5和ChatGPT-4（OpenAI）、Bing Chat（微软）、Gemini（谷歌）以及Claude-Instant（Anthropic）——在牙齿美白方面的回答准确性和一致性。

方法

由修复牙科专家确定的15个关于牙齿美白的常见问题被分为本科水平或专业水平问题。所有问题都以土耳其语和英语形式提交给这五种人工智能聊天机器人。在连续三天内，每天用标准化提示语提问三次。两位专家使用五点李克特量表独立评估这些回答，并计算平均分。通过三因素方差分析来探讨聊天机器人类型、知识水平以及问题语言对回答准确性的影响。同时使用Cohen’s kappa系数来评估评估者之间的共识程度。统计显著性标准设定为

?

结果

聊天机器人类型对回答准确性有显著影响（p??0.05）。不过，聊天机器人类型与知识水平之间、以及聊天机器人类型与问题语言之间存在显著交互作用（p??0.05）。

结论

聊天机器人生成的关于牙齿美白的信息的准确性在很大程度上取决于所使用的具体人工智能模型。先进的大型语言模型，尤其是ChatGPT-4，能生成比其他测试系统更准确、更一致的回答。因此，人工智能聊天机器人不应被视为可互相替代的临床信息来源，其输出内容应谨慎解读，并在专业指导下进行核实。

临床意义

这些研究结果强调了批判性评估人工智能生成的健康信息的重要性，同时也表明聊天机器人的回答不能替代专业的临床咨询。

联系信箱：

粤ICP备09063491号

摘要

背景

方法

结果

结论

临床意义

背景

方法

结果

结论

临床意义

热点排行