人工智能辅助全景曲面断层片犬齿测量进行性别判定:与罗马尼亚人群样本中手工分析的对比研究

《Diagnostics》:Artificial Intelligence-Assisted Sex Estimation from Canine Measurements on Panoramic Radiographs: Comparison with Manual Analysis in a Romanian Sample

【字体: 时间:2026年06月19日 来源:Diagnostics 3.3

编辑推荐:

  背景:当其他骨骼成分缺失或因各种埋藏因素(taphonomic factors)影响下DNA分析不可行时,牙齿因高度耐久性使牙体测量学(Odontometrics)成为性别判定(Sex Estimation)的有用手段。本研究旨在评估罗马尼亚人群中采用手工测量

  
背景:当其他骨骼成分缺失或因各种埋藏因素(taphonomic factors)影响下DNA分析不可行时,牙齿因高度耐久性使牙体测量学(Odontometrics)成为性别判定(Sex Estimation)的有用手段。本研究旨在评估罗马尼亚人群中采用手工测量与基于人工智能(AI)测量进行恒尖牙(Canine)牙体测量以判定性别的效果,并对两种方法进行比较。方法:自200张全景曲面断层片(Orthopantomograms, OPGs)中筛选出134例(女性64例,男性70例)符合纳排标准者进行分析。分别采用手工和AI方法测量尖牙全长(Total Canine Length)及尖牙间距离(Intercanine Distance),随后进行统计学分析以评估两组间性别判别准确率。结果:观察者间一致性极佳(组内相关系数ICC = 0.923–0.992)。下颌尖牙特别是33牙在手工与AI测量中均提供最强性别判别效能,留一法交叉验证(Leave-One-Out Cross-Validation)准确率分别为69.4%(手工)和64.9%(AI);尖牙间距离判别价值较低。多元判别分析(Multivariate Discriminant Function Analysis)中手工与AI模型表现相当(受试者工作特征曲线下面积AUC = 0.765 vs. 0.732),两方法间差异无统计学意义(p = 0.375)。结论:在本样本中AI辅助与手工测量之性别判定性能相当。鉴于其准确率,该方法应作为综合法医鉴定评估的一部分应用,而非单独使用之独立方法。
论文解读:人工智能辅助全景曲面断层片犬齿测量进行性别判定——与罗马尼亚人群手工分析之比较
研究背景与立项依据
在法医人类学及司法鉴定中,个体身份识别的重要步骤之一是性别判定,可使待定个体范围缩减约50%。脱氧核糖核酸(DNA)分析虽为金标准,但当骨骼或牙齿遗存受高温、微生物作用、长期埋藏等taphonomic因素影响导致DNA降解时,DNA检测受限。骨盆因具高度性二态性(Sexual Dimorphism)被视为骨骼性别判定最可靠结构(准确率90%–95%),颅骨为次选(约90%),而牙齿组织因其高度结构性耐久性及抗腐性在骨骼缺失时尤为珍贵。传统牙体测量学(Odontometrics)通过卡尺、CT或数字影像测量冠径、根长及牙弓宽度等参数判定性别,但手工测量存在人为误差及观察者间变异。近年人工智能(Artificial Intelligence, AI),尤指卷积神经网络(Convolutional Neural Network, CNN)及Segment Anything Model(SAM)等深度学习架构,被应用于全景曲面断层片(Orthopantomogram, OPG)之自动牙体分割与测量,可减少人为介入并降低变异,然AI衍生测量值在法医情境中可靠性及与手工测量之一致性尚缺乏充分证据。尖牙(犬齿, Canine Teeth)为人类牙列中性二态性最显著者,下颌尖牙尤为突出,此前罗马尼亚人群研究已证实下颌尖牙近远中径为性别显著预测因子。因此研究人员拟探究基于AI辅助OPG尖牙全长及尖牙间距离测量之于性别判定适用性,并比较AI与手工测量在一致性、方法间差异及性别判别效能上之异同,检验零假设为两方法在测量结果及性别判定效能上无显著差异。
该研究发表于《Diagnostics》。
主要关键技术方法与样本
研究人员回顾性调取罗马尼亚"Carol Davila"医药大学口腔与全身放射科2024年存档之200张OPG(男、女各100例),经纳排标准(≥18岁、恒牙列完整、上下颌恒尖牙存留、无累及尖牙深龋、影像质量满足测量要求、含射线校准标尺;排除<18岁、混合牙列、尖牙缺失、尖牙龋坏、影像不佳及无校准标尺)筛选后纳入134例(女64,男70)。手工测量使用Adobe Photoshop将OPG按标尺校准(15像素=10 mm)后,由两名观测者独立两次测量每侧上颌(13、23)及下颌(33、43)尖牙全长(根端至唇侧尖顶)及同颌尖牙间距离(两尖牙尖顶间距)。AI测量采用Roboflow平台上预训练Segment Anything Model 3(SAM3)对OPG上行全牙列分割,自行编写Python程序依据FDI牙位计数法识别分类尖牙(13、23、33、43),利用OpenCV基于分割掩膜提取特征点并以相同校准参数计算尖牙全长及尖牙间距。统计方法包括:G*Power进行先验样本量估算(中等效应量Cohen's d=0.50,α=0.05,power=0.80,最小需128例);SPSS行双向混合效应模型组内相关系数(ICC, Two-way Mixed Model, Absolute Agreement)评估观察者间/方法间信度;配对t检验与Bland–Altman分析评估系统偏差与一致性;独立样本t检验(必要时Welch校正)及性二态指数(Sexual Dimorphism Index, SDI = (Xm/Xf?1)×100)评估性二态性;判别函数分析(Discriminant Function Analysis, DFA)结合留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)评估单变量及多变量性别判定准确率;Box's M检验评估协方差矩阵齐性;受试者工作特征曲线(Receiver Operating Characteristic, ROC)及曲线下面积(Area Under the Curve, AUC)评价判别力,Hanley–McNeil z检验比较两相关ROC曲线AUC差异,显著性水准p<0.05。
研究结果
3.1. 样本特征(Sample Characteristics)
最终纳入134例OPG(女64,男70),满足先验样本量要求,性别分布均衡,所有测量数据完整进入分析。
3.2. 观察者间信度—手工测量(Inter-Observer Reliability (Manual Measurements))
手工测量ICC介于0.923–0.992,达优秀信度标准(p<0.001);配对t检验示各变量观察者间差异均无统计学意义(p>0.05),平均差?0.110 mm至0.096 mm;Bland–Altman分析95%一致性界限:单个尖牙全长?1.568~1.532 mm,上颌尖牙间距(13–23)?0.905~1.029 mm,下颌尖牙间距(33–43)?2.156~1.936 mm,证实手工测量协议可靠且可重复。
3.3. 手工测量结果(Manual Measurements)
3.3.1. 性二态性(Sexual Dimorphism):男性所有尖牙全长及尖牙间距均值大于女性。下颌左侧尖牙(33)两性差异最大(p<0.001),SDI=9.55%,Cohen's d较大;上颌右侧尖牙(13)显著(p<0.001, SDI=6.57%);下颌右侧尖牙(43)显著(p=0.009, SDI=5.66%);上颌左侧尖牙(23)未达显著性(p=0.120, SDI=2.76%);尖牙间距两性差异较小。
3.3.2. 性别判定准确率(Sex Estimation Accuracy):单变量判别分析中33牙分类准确率最高(69.4%),其次43牙(61.9%)、13牙(60.4%),23牙为53.7%;上颌尖牙间距(13–23)57.5%,下颌尖牙间距(33–43)50.0%(机遇水平)。四尖牙多元DFA交叉验证准确率67.9%,加入尖牙间距后降至63.4%;Box's M检验提示协方差矩阵齐性(p>0.05)。
3.4. AI测量结果(AI Measurements)
3.4.1. 性二态性(Sexual Dimorphism):AI测量同样显示男性各尖牙全长及间距大于女性,33牙差异最显著(p<0.001, SDI=9.39%, Cohen's d=0.79),13牙显著(SDI=6.48%),43牙与23牙亦显著;Levene检验方差齐(p>0.05)。
3.4.2. 性别判定准确率(Sex Estimation Accuracy):单变量中33牙交叉验证准确率64.9%为最高,尖牙间距判别力偏低(上颌60.4%,下颌57.5%)。四尖牙多元AI模型原始分类65.7%,交叉验证64.2%;加入尖牙间距后原始分类67.9%,交叉验证65.7%。Box's M检验示AI多元模型协方差矩阵不齐(p≤0.012),解读需谨慎。手工与AI多元模型交叉验证准确率差异微小(67.9% vs. 65.7%)。
3.5. 比较分类效能与方法间一致性(Comparative Classification Performance and Inter-Method Agreement)
3.5.1. 手工与AI测量一致性(Agreement Manual vs. AI Measurements):Pearson相关分析各变量r=0.706–0.948(p<0.001),上颌尖牙间距相关性最强。Bland–Altman分析示上颌尖牙(13、23)存负向系统偏差(AI值偏小),下颌尖牙偏差近零,下颌尖牙间距(33–43)呈正向偏差(AI值偏大);回归分析示多数变量无比例偏差,23牙存微弱比例偏差(R2=0.039, p=0.022)。
3.5.2. 比较诊断效能(Comparative Diagnostic Performance):手工多元模型AUC=0.765,AI多元模型AUC=0.732,Hanley–McNeil检验z=0.89, p=0.375,差异无统计学意义,表明AI衍生测量性别判别能力与手工测量相当。
讨论与结论总结
研究人员指出手工测量经严格校准与双人双次操作达优秀信度(ICC 0.923–0.992),适用于定量牙体测量。本罗马尼亚样本中性二态模式与文献相符——下颌尖牙尤其33牙最具性二态性(SDI≈9.5%),上颌右侧尖牙次之,上颌左侧尖牙及尖牙间距判别力低,与部分人群研究一致但也存在报道差异,需注意既往多基于冠部近远中/颊舌径而非OPG上全长。AI测量未改变性二态程度及整体分类效能,两方法AUC差异无统计学意义(p=0.375),不能拒绝零假设。Bland–Altman揭示参数特异性系统偏差,提示两法未完全互换,AI主要价值为自动化、减少人工并利大数据集标准化分析而非提升判别力。需注意本研使用SAM3做牙分割并提取预设线性参数再经经典统计分类,不同于端到端直接影像深度学习性别分类(后者文献报道可达>90%),未来可验证直接影像深度学习于不同人群之泛化性。局限含样本对微小效应不敏感、OPG存放大率及几何畸变(尤其横向测值)、多数前人研究测冠径非全长、AI多元模型Box's M显著需谨慎解读、未行外部独立队列验证。
结论部分原文翻译总结:研究人员发现基于AI与手工测量恒尖牙全长及尖牙间距所得结果相似,性别分类总体效能无显著差异,故不能拒绝零假设。下颌左侧尖牙(33)为两分析法中性二态最强且信息量最大之变量,但其准确率提示该方法应纳入人类学综合评估框架使用而非作为单一判定工具。相比之下尖牙间距在此样本中判别价值有限且具方法依赖性——手工分析中不显著而AI分析中显著,并在AI多元模型中略提升判别。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号