今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

用于索马里基于性别的暴力行为分类的监督式机器学习算法:过采样技术的比较

《Scientific Reports》:Supervised machine learning algorithms for classifications of gender-based violence in Somalia: a comparison of oversampling techniques

【字体: 大 中 小 】 时间:2026年05月30日 来源:Scientific Reports 3.9

编辑推荐:

  摘要基于性别的暴力行为可能包括在公共或私人场合发生的性暴力、身体暴力、精神暴力和经济暴力。这种暴力行为不仅会对受害者造成直接的心理影响和身体、经济上的后果,其背后还有多种原因,涉及社会、经济、文化、政治和宗教等方面。本研究通过应用多种重采样技术,旨在利用SDHS数据集提高基于性别

  

摘要

基于性别的暴力行为可能包括在公共或私人场合发生的性暴力、身体暴力、精神暴力和经济暴力。这种暴力行为不仅会对受害者造成直接的心理影响和身体、经济上的后果,其背后还有多种原因,涉及社会、经济、文化、政治和宗教等方面。本研究通过应用多种重采样技术,旨在利用SDHS数据集提高基于性别的暴力(GBV)分类的精确度和准确性。由于GBV阳性案例与阴性案例之间的类别不平衡,构建可靠的机器学习分类模型极具挑战性。为了解决这一问题,研究采用了过采样机器学习方法,包括合成少数类过采样技术(SMOTE)、自适应合成过采样(ADASYN)和随机过采样(ROS)来对索马里的GBV数据进行分类。研究训练并评估了逻辑回归(LR)、决策树(CART)、随机森林(RF)、朴素贝叶斯(NB)、k近邻(KNN)和支持向量机(SVM)等方法。此外,还使用过采样技术来改善数据集的不平衡性。通过接收者操作特征曲线(ROC)和曲线下面积(AUC)来评估每种机器学习分类器的性能,并比较其在原始GBV数据集上的表现。在各种重采样技术中,SMOTE在几乎所有评估指标上的表现均优于ADASYN和ROS:随机森林(RF=0.992,CART=0.969,KNN=0.957)优于ADASYN(RF=0.912,CART=0.910,KNN=0.876),随机森林(RF=0.920,CART=0.919,KNN=0.880)也优于ROS。表现最好的分类器是随机森林(RF)和决策树(CART),其次是k近邻(KNN)。通过对不平衡数据集进行重采样后,我们可以得出结论:随机森林(AUC=0.972)、CART(AUC=0.969)和KNN(AUC=0.957)在准确分类方面表现更优。与其他过采样技术相比,SMOTE更有效地平衡了数据集中的类别分布,尤其是使少数类得到了更多的代表。此外,基于马修斯相关系数(MCC)的评估显示,SMOTE的性能优于ADASYN和ROS:SMOTE的MCC值最高(RF=0.86,CART=0.85,KNN=0.80),表明这些机器学习模型的预测可靠性较强。因此,本研究的结果将有助于政府和非政府组织在制定针对基于性别暴力风险的政策时做出决策。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:性别暴力|机器学习分类|重采样技术|过采样方法|木桶效应|风险评估

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号