《Bioengineering》:Deep Learning-Based Evaluation of Maxillary Dental Midline Deviation on Orthodontic Frontal Photographs
编辑推荐:
摘要:目的:本研究旨在使用基于YOLOv8的深度学习方法检测正颌正面照片上的上颌牙中线区域,并评估检测输出如何影响各种机器学习算法在区分对称与非对称中线状况方面的分类性能。材料与方法:共分析了146张标准化正面照片(其中72张中线相对于面部中线偏差≥2 mm,
摘要:目的:本研究旨在使用基于YOLOv8的深度学习方法检测正颌正面照片上的上颌牙中线区域,并评估检测输出如何影响各种机器学习算法在区分对称与非对称中线状况方面的分类性能。材料与方法:共分析了146张标准化正面照片(其中72张中线相对于面部中线偏差≥2 mm,面部中线由软组织鼻根点-鼻下点连线定义;74张对称)。使用YOLOv8获取边界框和关键点预测,这些预测被转换为数值特征向量,并用于训练11个分类器(包括朴素贝叶斯、带L1和弹性网络惩罚的逻辑回归、支持向量机、AdaBoost等)。性能通过准确率(含95% Wilson置信区间)、精确率、召回率、F1分数和ROC-AUC进行评估。下游分类器的超参数优化采用五折交叉验证结合训练数据集(n = 126)内的网格搜索,最终分类器评估使用预留的测试数据集(n = 20)。由于YOLOv8目标检测器在提取特征前使用了完整图像数据集进行训练,因此本文呈现的分类指标应仅视为探索性结果。结果:YOLOv8在中线检测中达到了mAP@0.5 = 0.995。朴素贝叶斯获得了最高的分类准确率75%(95% CI: 53–89%),ROC-AUC = 0.75。AdaBoost达到了65%(95% CI: 43–82%)。几个模型默认预测多数类(准确率=40%),表明特征判别力不足。结论:YOLOv8在当前的内部实验条件下检测到了上颌牙中线。然而,由于未对整个检测-分类流程进行无泄漏的外层k折验证,分类结果应视为初步结果。未来工作应解决信息泄漏问题,纳入面部参考框架归一化,包括观察者间可靠性评估,并在更大的数据集上验证该方法。
在正颌诊断中,上颌牙中线的准确定位对于美学和功能性评估至关重要。常规临床实践常依赖正面照片手动标注,但该方法易受患者头部位置、表情、照片质量及操作者技能影响,且存在显著的观察者内和观察者间变异。尽管多数个体的面部与上颌牙中线基本一致(成功率约94.3%),但超过2 mm的偏差在美学上不可接受,尤其在面部不对称患者中更复杂。现有手动分析方法耗时且难以标准化,亟需更客观、可重复的自动方法。近年来,基于深度学习的图像处理技术(如卷积神经网络(CNN))已能高效检测医学和牙科图像中的解剖结构,其中YOLO(You Only Look Once)系列因其端到端训练和高计算效率而受到关注。然而,现有研究多聚焦于检测任务本身,较少探讨检测输出如何影响后续分类过程的性能。为此,研究人员开展了本研究,旨在利用YOLOv8架构自动检测正颌正面照片中的上颌牙中线区域,并评估其输出对多种机器学习算法在对称与非对称分类中的影响。论文发表在《Bioengineering》。
研究人员开展的这项研究共纳入146张标准化正面照片(72张中线偏差≥2 mm,74张对称),图像来自Ayd?n Adnan Menderes大学牙科学院正畸科档案。关键技术方法包括:使用YOLOv8s-pose模型进行边界框和五点关键点检测;应用HSV增强、缩放、平移、擦除和马赛克等数据增强策略;将检测输出转换为15维数值特征向量(边界框中心坐标、宽高、置信度、关键点坐标);训练11种监督式机器学习分类器(朴素贝叶斯、逻辑回归及其L1/ElasticNet惩罚、支持向量机(RBF核)、AdaBoost等);采用五折交叉验证结合网格搜索优化分类器超参数;最终在固定测试集(n=20)上评估性能,但需注意YOLOv8在特征提取前使用了全部146张图像,因此分类结果存在信息泄漏,仅作为探索性分析。
研究结果分为以下部分:
**3.1 Detection Performance of the YOLOv8 Algorithm**
通过分析YOLOv8的F1分数、精确率、召回率和平均精度(mAP),研究人员发现模型在置信度阈值约0.88以下时F1分数接近1.0,精确率在置信度约0.936时达到1.0且无假阳性。mAP@0.5 = 0.995,表明预测边界框与手动标注区域高度重叠。训练和验证损失曲线稳定下降且无发散,提示模型收敛良好未过拟合。但需注意该检测性能来自内部验证分割,且上颌切牙间区域在标准化照片中对比度高、解剖边界清晰,因此高定位性能部分反映了任务的相对简单性。
**3.2 Classification Performance of Machine Learning Models**
基于YOLOv8输出特征训练的11个分类器中,朴素贝叶斯在20张测试集上达到最高准确率75%(95% CI: 53–89%),对称类的精确率0.64、召回率0.88、F1分数0.74,非对称类精确率0.89、召回率0.67、F1分数0.76,ROC-AUC为0.75。AdaBoost准确率65%(95% CI: 43–82%),Extra Trees准确率60%(95% CI: 39–78%)。逻辑回归、K近邻等模型准确率在45–55%之间,而支持向量机(RBF核)、带L1惩罚的逻辑回归和带弹性网络惩罚的逻辑回归均默认预测多数类(准确率40%),对所有测试实例预测为对称,表明当前15维特征表示缺乏足够判别力。各模型置信区间大幅重叠,无法进行统计学可靠的性能排序。
**3.3 ROC Curve and Confusion Matrix Analysis**
ROC曲线分析显示,朴素贝叶斯的ROC-AUC为0.75,表明具有较强区分能力;逻辑回归为0.64,K近邻为0.56,随机森林、决策树和线性判别分析在0.41–0.45之间。AdaBoost的ROC曲线接近对角线(AUC=0.50),但其准确率为65%,两者不一致源于使用了decision_function而非predict_proba提取概率。混淆矩阵显示朴素贝叶斯正确分类了大多数对称与非对称病例,而默认预测多数类的三个模型将所有预测集中于对称类。
**3.4 Overall Evaluation**
总体而言,YOLOv8派生特征可应用于下游分类,但当前结果无法提供稳健的算法排名。朴素贝叶斯在点估计上表现最优,但所有模型的95%置信区间高度重叠,差异需谨慎解读。
讨论部分指出,高检测精度(mAP@0.5=0.995)并未转化为同等高的分类性能,这一脱节表明特征表示(而非分类器选择)是主要瓶颈。多个模型默认预测多数类直接证明当前特征判别力不足。研究的主要局限性包括:缺乏面部参考框架归一化(坐标仅相对于图像尺寸,无法反映临床不对称);信息泄漏(YOLOv8在特征提取前已见全部图像);单观察者标注且未评估可靠性;测试集仅20张,统计效力低;排除了模糊、倾斜等低质量图像,限制实际适用性;数据集仅来自单一中心。临床整合需要将特征归一化、将分类任务转化为连续回归,并作为决策支持工具。未来工作建议采用无泄漏验证(在外层折中重新训练检测器)、纳入面部参考框架、进行观察者间可靠性评估,并在更大多中心数据集上验证。
结论部分翻译如下:本研究证明了使用YOLOv8派生边界框和关键点特征对标准化正颌正面照片进行上颌牙中线偏差探索性评估的技术可行性。YOLOv8在当前实验条件下取得了高内部定位性能;然而,该结果来自内部验证分割,不应被视为检测器泛化能力的独立估计。下游分类在固定20张测试集上达到最佳点估计准确率75%(朴素贝叶斯),但由于YOLOv8在特征提取前使用全部146张图像训练,分类指标不能视为全流程泛化的无偏估计。同时,各分类器的置信区间大幅重叠,无法进行统计学可靠的排序。这些发现应被视为两阶段混合工作流的探索性概念验证,而非临床可部署模型的验证。未来工作必须通过在外层折中重新训练检测器来解决信息泄漏问题,纳入面部参考框架归一化,提供观察者内和观察者间可靠性数据,并在更大多中心数据集上验证该方法。