
-
生物通官微
陪你抓住生命科技
跳动的脉搏
用于索马里基于性别的暴力行为分类的监督式机器学习算法:过采样技术的比较
《Scientific Reports》:Supervised machine learning algorithms for classifications of gender-based violence in Somalia: a comparison of oversampling techniques
【字体: 大 中 小 】 时间:2026年05月30日 来源:Scientific Reports 3.9
编辑推荐:
摘要基于性别的暴力行为可能包括在公共或私人场合发生的性暴力、身体暴力、精神暴力和经济暴力。这种暴力行为不仅会对受害者造成直接的心理影响和身体、经济上的后果,其背后还有多种原因,涉及社会、经济、文化、政治和宗教等方面。本研究通过应用多种重采样技术,旨在利用SDHS数据集提高基于性别
基于性别的暴力行为可能包括在公共或私人场合发生的性暴力、身体暴力、精神暴力和经济暴力。这种暴力行为不仅会对受害者造成直接的心理影响和身体、经济上的后果,其背后还有多种原因,涉及社会、经济、文化、政治和宗教等方面。本研究通过应用多种重采样技术,旨在利用SDHS数据集提高基于性别的暴力(GBV)分类的精确度和准确性。由于GBV阳性案例与阴性案例之间的类别不平衡,构建可靠的机器学习分类模型极具挑战性。为了解决这一问题,研究采用了过采样机器学习方法,包括合成少数类过采样技术(SMOTE)、自适应合成过采样(ADASYN)和随机过采样(ROS)来对索马里的GBV数据进行分类。研究训练并评估了逻辑回归(LR)、决策树(CART)、随机森林(RF)、朴素贝叶斯(NB)、k近邻(KNN)和支持向量机(SVM)等方法。此外,还使用过采样技术来改善数据集的不平衡性。通过接收者操作特征曲线(ROC)和曲线下面积(AUC)来评估每种机器学习分类器的性能,并比较其在原始GBV数据集上的表现。在各种重采样技术中,SMOTE在几乎所有评估指标上的表现均优于ADASYN和ROS:随机森林(RF=0.992,CART=0.969,KNN=0.957)优于ADASYN(RF=0.912,CART=0.910,KNN=0.876),随机森林(RF=0.920,CART=0.919,KNN=0.880)也优于ROS。表现最好的分类器是随机森林(RF)和决策树(CART),其次是k近邻(KNN)。通过对不平衡数据集进行重采样后,我们可以得出结论:随机森林(AUC=0.972)、CART(AUC=0.969)和KNN(AUC=0.957)在准确分类方面表现更优。与其他过采样技术相比,SMOTE更有效地平衡了数据集中的类别分布,尤其是使少数类得到了更多的代表。此外,基于马修斯相关系数(MCC)的评估显示,SMOTE的性能优于ADASYN和ROS:SMOTE的MCC值最高(RF=0.86,CART=0.85,KNN=0.80),表明这些机器学习模型的预测可靠性较强。因此,本研究的结果将有助于政府和非政府组织在制定针对基于性别暴力风险的政策时做出决策。