GDEO:基于基尼系数的判别均衡过采样方法,用于处理不平衡分类问题

《Neurocomputing》:GDEO: Gini-guided discriminative equilibrium oversampling for imbalanced classification

【字体: 时间:2026年05月31日 来源:Neurocomputing 6.5

编辑推荐:

  姜杰宝|朱慧萍|刘毛毛江西工业职业技术学院人工智能学院,南昌,330096,江西,中国摘要类别不平衡仍然是机器学习中的一个根本性挑战,特别是在少数类和多数类在特征空间中有严重重叠的情况下。在这种情况下,现有的重采样方法通常要么通过生成判别能力较差的合成样本来加剧类别重叠,要么试图

  
姜杰宝|朱慧萍|刘毛毛
江西工业职业技术学院人工智能学院,南昌,330096,江西,中国

摘要

类别不平衡仍然是机器学习中的一个根本性挑战,特别是在少数类和多数类在特征空间中有严重重叠的情况下。在这种情况下,现有的重采样方法通常要么通过生成判别能力较差的合成样本来加剧类别重叠,要么试图以牺牲大量多数类信息为代价来减轻重叠,有时甚至会导致不希望的类别分布偏移。为了解决这些限制,本文提出了一种新的过采样框架,称为基尼引导的判别均衡过采样(GDEO)。GDEO不是依赖于几何插值或显式的重叠清理,而是将少数类样本的生成表述为一个具有判别约束的连续优化问题。具体来说,基尼不纯度被用来表征类别概率空间中的判别不确定性,从而实现一种能够优先考虑对决策边界学习至关重要的少数类样本的不确定性感知加权。同时,通过同时强制类内结构一致性和类间竞争抑制来构建一个判别均衡目标,引导合成样本朝向决策边界附近的信息丰富区域而不穿过它。在32个不平衡基准数据集上进行的广泛实验表明,当与KNN、CART、NB和SVM分类器结合使用时,GDEO在AUC、G-mean和F-measure方面始终优于10种最先进的方法。结果进一步表明,随着类别重叠程度的增加,GDEO的性能优势变得更加明显,这突显了其在复杂不平衡分类场景中的鲁棒性和有效性。

引言

随着互联网技术的快速发展,各种应用系统中不断生成和积累大量数据,高效提取有价值的信息成为数据挖掘领域的主要研究焦点。然而,在实际应用中,收集到的数据往往表现出明显的类别不平衡分布,例如软件缺陷预测[1]、[2]、网络入侵检测[3]、[4]、信用评分[5]、[6]、医学图像识别[7]、[8]以及故障诊断[9]、[10]、[11]、[12]。类别不平衡指的是不同类别的样本数量存在显著差异的情况,其中样本数量较多的类别称为多数类,样本数量较少的类别称为少数类[13]。传统的机器学习分类器通常旨在最小化损失函数或最大化似然函数以提高整体分类准确性,这往往使训练过程偏向多数类,并严重降低对少数类样本的识别性能[14]。为了解决这个问题,已经提出了许多方法,这些方法可以大致分为算法级方法和数据级方法[15]。算法级方法改进现有模型或学习机制,以鼓励分类器在训练期间更多地关注少数类,但它们通常依赖于特定模型,因此通用性有限[16]、[17]、[18]。相比之下,数据级方法从数据预处理的角度出发,通过合成少数类样本或移除多数类样本来平衡数据分布,它们与分类器无关,具有更好的通用性和实际价值[19]、[20]、[21]。
最近的研究表明,仅类别不平衡的程度并不能完全反映数据的复杂性。在一些类别分离性良好的极度不平衡数据集中,传统的分类算法仍然可以实现令人满意的分类性能[22]。真正限制不平衡数据集分类性能的因素通常是其他更关键的挑战,如类别重叠、噪声和小离散度[23]。值得注意的是,在不平衡条件下,类别重叠在降低分类性能方面起着最重要的作用[24]。类别重叠描述了少数类和多数类样本在特征空间的特定区域中纠缠的情况,由于少数类的表示不足,分类器难以构建明确的决策边界,从而导致判别性能下降。为了解决这个问题,已经开发了许多方法来处理不平衡数据集中的类别重叠,这些方法通常可以分为两大类[13]。一类方法通过欠采样策略移除重叠区域中的多数类样本[25]、[26]。然而,在类别重叠严重的情况下,这些方法可能导致重要多数类信息的丢失。第二类方法采用混合策略,结合过采样和重叠区域清理来减轻类别重叠[19]、[27]。虽然这些混合方法可以在一定程度上缓解纯欠采样的局限性,但它们通常依赖于对数据分布的强假设,或者涉及移动多数类样本等操作,这可能会引入分布偏差或意外的伪影。这些局限性突显了需要更鲁棒和适应性更强的策略来有效处理类别重叠,同时保持数据的内在结构。
针对上述挑战,我们提出了一种新的不平衡分类过采样方法,称为基尼引导的判别均衡过采样(GDEO)。通过保留内在的判别结构,所提出的方法通过一种具有不确定性感知的加权过采样策略增强了少数类的表示,从而在不平衡分类问题中提高了整体判别性能。GDEO将过采样建模为一个在判别约束下的局部优化问题,使用基尼不纯度来量化概率空间中的局部判别不确定性,并据此对少数类样本进行加权,以便在合成过程中给予那些具有更高不确定性和与决策边界学习更相关样本更多的重视。在此基础上,引入了一个判别约束机制,该机制同时考虑了类内结构一致性和类间竞争抑制,引导合成样本朝向决策边界附近的判别均衡区域而不穿过它,从而强化关键的少数类判别区域,同时防止类别混淆。得益于上述设计,GDEO在减轻少数类样本稀缺性的同时,显著降低了传统过采样方法中常见的类别重叠和噪声引入的风险,使其特别适合具有复杂决策边界的不平衡分类场景。
本文的主要贡献可以总结如下:
  • 我们提出了一种基于基尼不纯度的不确定性感知加权过采样策略,该策略优先考虑对学习分类决策边界更为关键的少数类样本。
  • 开发了一个具有判别约束的采样优化模型,该模型在统一框架内同时考虑了类内结构一致性和类间竞争抑制,从而引导合成样本朝向判别均衡区域。
  • 系统分析了所提出算法的计算复杂性,证明它在保持强分类性能的同时实现了高计算效率。
  • 在32个不平衡基准数据集上的实验结果表明,所提出的方法在其他最先进的采样方法上表现显著优于它们,特别是在类别重叠的情况下。
本文的其余部分组织如下。接下来的部分将回顾相关研究并讨论现有方法的缺点。第3节详细阐述所提出的方法。第4节报告实验配置、比较结果和相关分析。最后,得出结论并概述了未来工作的潜在方向。

章节片段

相关工作

由于本文提出的方法属于数据级方法,本节主要回顾不平衡学习中的数据级解决方案。一般来说,数据级方法可以分为过采样、欠采样和混合采样方法[23]。过采样方法通过合成新的少数类样本来平衡类别分布不平衡[28]。欠采样方法通过移除多余的多数类样本来实现分布平衡[26]。

所提出的方法

为了解决上述问题,本文提出了一种基尼引导的判别均衡过采样方法(GDEO)。与那些显式清理采样区域或施加几何约束的现有方法不同,GDEO将样本合成建模为一个具有判别约束的连续优化问题,通过表征概率空间中的判别不确定性来适应性地生成接近但不穿过决策边界的判别均衡区域的合成样本

实验设置

数据集。本研究选择了来自KEEL和UCI仓库的32个基准数据集。表1报告了这些数据集的详细统计信息,包括样本数量、特征维度、不平衡比率(IR)和类别重叠程度(OD)。其中,类别重叠程度是根据Napierala等人[50]提出的方法测量的,定义为少数类簇的数量与少数类样本总数之比

结论与未来工作

在本文中,我们提出了一种名为基尼引导的判别均衡过采样(GDEO)的新过采样框架,用于解决类别重叠严重情况下的类别不平衡问题。通过将样本生成建模为一个具有判别约束的连续优化问题,GDEO明确平衡了类内结构一致性和类间竞争抑制。使用基尼不纯度能够有效地表征概率空间中的判别不确定性,

CRediT作者贡献声明

姜杰宝:撰写——原始草稿、可视化、软件、方法论、调查。朱慧萍:撰写——审阅与编辑、形式分析、数据整理。刘毛毛:可视化、验证。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。

致谢

我们的研究得到了江西省教育科学技术基金(授权号GJJ2206102)的支持。
姜杰宝于2009年在中国江西师范大学获得计算机科学与技术学士学位,2012年在中国江西师范大学获得计算机科学与技术硕士学位。2012年至2018年,他在江西电信信息产业有限公司的研发中心担任数据挖掘工程师。2018年,他加入了江西工业职业技术学院。他的主要研究兴趣包括机器学习
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号