《Journal of Imaging》:A Pilot Study on AI-Driven Age Estimation and Sex Determination in Greek Individuals
编辑推荐:
人工智能方法(人工智能(AI)方法:机器学习和深度学习方法)在牙齿年龄估计和性别判定的准确性方面显示出有希望的结果。因此,这项初步研究旨在评估一个AI系统在希腊人群样本中估计年龄和判定性别的效能。该研究的样本由110名成年受试者的全景X线片(panoramic
人工智能方法(人工智能(AI)方法:机器学习和深度学习方法)在牙齿年龄估计和性别判定的准确性方面显示出有希望的结果。因此,这项初步研究旨在评估一个AI系统在希腊人群样本中估计年龄和判定性别的效能。该研究的样本由110名成年受试者的全景X线片(panoramic radiographs)组成。样本中男性和女性分布均匀(1/1)。每位患者的牙齿状况不同。样本的年龄范围为9至84岁,平均年龄为48.87岁(±16.14年)。研究方法采用了由萨格勒布大学开发的卷积神经网络(convolutional neural networks,CNNs)测试版本。研究人员训练了独立的CNNs在4000张全景X线片上:一个用于性别判定,另一个用于年龄估计。AI程序平均高估了受试者年龄4.16年。真实性别与估计性别之间发现了统计学显著的相关性(p值 < 0.001)。在男性中,一致率为56.36%,而在女性中为89.47%(双比例z检验;p值 < 0.001)。对于整体样本,Kappa = 73.21%,表明非常好的一致性。关于年龄估计的结果不太令人满意,需要进一步研究。
论文解读文章
研究背景与问题
在法医牙科学中,牙齿年龄估计和对活体或未识别尸体的性别判定是核心步骤之一。即便身份无法确定,也需要通过牙齿年龄估计和性别判定来重建未知个体的生物学轮廓。牙齿年龄估计在法医学案件、寻求庇护者案件、大规模灾难以及考古研究中至关重要。年龄估计可基于牙齿年龄或骨骼年龄,而由于有证据支持,牙齿年龄与实际年龄的相关性比骨骼年龄更强。已有多种基于牙齿发育X线片评估的年龄估计方法被提出。在牙齿发育完成后,牙齿年龄估计则基于对牙齿与年龄相关的结构变化的评估。两性之间因不同的性染色体而导致的表型、激素系统以及身体发育和生长模式的差异,在性别判定中被用于评估牙齿和颅面系统中可观察到的显著差异。然而,传统方法在准确性和可靠性上存在差异,且依赖于不同人群样本和统计方法。此外,专家基方法虽然仍为参考标准,但具有主观性、耗时性,且需要训练有素且经验丰富的检查者参与。在复杂案例中,当专家意见不一致或可用证据不足时,这些缺点可能产生关键影响。
尽管AI方法(机器学习和深度学习方法)在牙齿年龄估计和性别判定的准确性方面显示出有希望的结果,但AI模型在不同人群中的表现仍存在不确定性,这与人种样本、X线片图像质量、采集协议、所用设备和牙面解剖变异有关。这些限制在法医案件中可能至关重要,可能引发法律后果。因此,有必要针对特定人群进行AI模型的开发和测试。在将这类模型应用于涉及希腊人群的真实案例之前,需要检验这些模型在该特定人群中的准确性。因此,这项初步研究旨在评估一个AI系统在希腊人群样本中估计年龄和判定性别的效能。
研究人员开展的研究与结论
研究人员招募了110名受试者的全景X线片(panoramic radiographs)作为样本,男女性别分布均匀(1/1),年龄范围9至84岁(平均48.87±16.14年)。研究采用了由萨格勒布大学开发的卷积神经网络(CNNs)测试版本。这些CNNs分别针对性别判定和年龄估计进行了训练,训练数据来自4035张克罗地亚受试者的曲面断层片(orthopantomograms,OPGs;即全景X线片),其中女性2368张,男性1667张,平均年龄38.17岁。研究人员将图像上传至实验性在线应用,记录估计年龄和判定性别。统计分析包括配对t检验、Lin's rho一致性相关系数、Bland-Altman图、均方误差(MSE)、卡方检验、Fleiss' Kappa和双比例z检验。
主要结论:AI程序整体平均高估受试者年龄4.16年,男性高估5.9年(显著),女性无显著差异(平均差异-2.46年)。整体样本的Lin's rho为0.688(中等一致性),女性略高于男性(0.730 vs 0.659)。10年年龄段中,51-60岁和61-70岁组准确性最高,儿童(<10岁)和老年人(80岁以上)准确性最低,可能因样本量小。性别判定方面,真实性别与估计性别有显著相关性(p<0.001),女性一致率89.47%显著高于男性56.36%,整体样本Kappa=73.21%(非常好的一致性)。AI程序报告的性别准确性率为95.12%,但Kappa值显著更低(73.21%)。年龄估计准确性为60%,被视为中等满意。
研究意义:该研究首次尝试在希腊人群中使用AI进行年龄估计和性别判定。结果表明,该AI系统在性别判定方面表现良好(尤其对女性),但年龄估计结果不理想,需进一步研究。这与现有文献中其他人群的研究一致——AI的准确性受图像质量、牙齿数量、治疗情况等因素影响。论文发表在《Journal of Imaging》。
主要关键技术方法
研究人员使用萨格勒布大学开发的测试版卷积神经网络(CNNs)作为核心方法。训练数据为4035张克罗地亚受试者的曲面断层片(OPGs),其中女性2368张、男性1667张,平均年龄38.17岁,按5年年龄段分组。研究样本为110张希腊受试者的全景X线片。分别训练了两个独立的CNN:一个用于性别判定,另一个用于年龄估计。图像由研究人员上传至实验性在线应用进行处理,无需对分辨率、放大率或曝光协议设定特定标准,也未对受试者民族背景设限。统计分析采用配对t检验、Lin's rho一致性相关系数、Bland-Altman图、均方误差(MSE)、卡方检验、Fleiss' Kappa和双比例z检验。
研究结果
**年龄估计结果**:在整体样本中,真实年龄与估计年龄的平均差异为-4.16年(95% CI: -6.40至-1.91),即AI平均高估年龄4.16年。男性中,平均差异-5.9年(95% CI: 2.36至9.44),显著高估;女性中,平均差异-2.46年(95% CI: -5.29至0.37),无显著差异。整体样本的Lin's rho为0.688(中等一致性),95%一致性限宽(-25.03至16.98)。按性别分,女性Lin's rho为0.730,男性为0.659,均为中等一致性。10年年龄组中,51-60岁和61-70岁组的均方误差(MSE)最低(准确性最高),而<10岁和80岁以上组MSE最高(准确性最低),可能因样本量小。整体年龄估计准确性为60%。
**性别判定结果**:真实性别与估计性别之间存在统计学显著相关性(p<0.001)。男性一致率为56.36%,女性一致率为89.47%(双比例z检验,p<0.001)。整体样本的Fleiss' Kappa为73.21%,表明非常好的一致性。AI程序自身报告的性别准确性率为95.12%,但Kappa值显著低于该值(双比例z检验,p<0.001)。在21例年龄估计和1例性别判定中,系统未能提供结果,可能因域偏移或图像参数问题。
讨论与结论
讨论指出,传统方法依赖检查者经验且具有主观性,AI系统可通过识别多变量定量或定性模式(如牙齿萌出、发育、钙化、髓腔尺寸、牙齿状态等)作为补充工具。本研究中,AI系统在性别判定上表现良好,尤其对女性更准确,而年龄估计结果中等。这可能与图像质量、牙齿数量、牙髓变化及牙科治疗种类有关。与其他研究比较:Kim等人在韩国人群中的AI模型性别判定准确率为90.25%,年龄估计在年轻组更准确;Murray等人在巴西人群中的CNN模型年龄估计准确率为88%;Hundur Hiyari等人在波斯尼亚人群中的性别判定准确率95.98%,年龄估计准确率超过96%;Kurniawan和Oliveira等人在印尼和巴西人群中的研究显示较低年龄组准确性低。本研究结果与部分一致,但整体年龄估计准确性较低(60%)。
研究局限性包括样本量小且变异有限;AI软件为测试版,基于机构特定的克罗地亚受试者全景图像训练;未对OPG的分辨率、放大率、曝光协议或民族背景设限。未来需使用更多来自不同人群、不同设备和参数的全景X线片进行训练。
研究结论(翻译):这种完全自动化的全景图像分析无需对图像设定特定标准,也未对受试者民族背景设限。这可能对研究结果产生了影响。关于性别判定,女性的一致率优于男性。关于年龄估计的结果不太令人满意,需要进一步研究。似乎图像质量、牙齿数量以及牙科治疗的数量和种类可能影响该软件的准确性。当前该软件的局限性在于它是在克罗地亚人群的曲面断层片上训练的,并且所有用于训练的图像仅使用一种X射线设备。为了在训练过程中获得更好的结果,应使用来自不同设备和人群的曲面断层片。