类别不平衡是机器学习中普遍存在的挑战,它源于不同类别样本分布的不对称性。这一问题在许多高风险领域中都很常见,包括工业故障诊断[1]、金融欺诈检测[2][3]、医学诊断[4][5]和地震事件预测[6]。在这些应用中,尽管少数类样本数量较少,但它们往往包含关键信息[7]。然而,传统的学习算法本质上偏向于多数类,这严重影响了它们对少数类样本的识别性能。如果不对这一问题进行处理,可能会导致错误的决策和灾难性的系统故障。
为了减轻类别不平衡的不利影响,重新采样技术成为主要的解决方法。这些方法大致可以分为欠采样、过采样和混合方法。
关于欠采样方法,最近的研究强调在减少冗余的同时保留有信息量的多数类样本。例如,Ng等人[8]提出了基于哈希的欠采样集成(HUE),通过哈希构建多样化的训练子空间来防止随机删除带来的信息丢失。为了克服全局边界检测的局限性,Dai等人[9]引入了一种多粒度重标记欠采样算法(MGRU)。MGRU结合了Tomek-Links和局部粒度分析,有效检测并消除了全局方法可能忽略的重叠样本。同样关注边界保留的Bai等人[10]开发了一种两步集成算法(TSSE-BIM)。该方法首先挖掘样本贡献信息以确定决策边界,然后应用加权采样来去除噪声和高重叠样本,从而显著减少了信息丢失。
过采样技术旨在通过增加少数类样本的数量来平衡类别分布,受到了广泛关注。合成少数类过采样技术(SMOTE)[11]是一种开创性的方法,它通过相邻样本之间的线性插值生成合成样本。后续的研究改进了这一范式,优先合成有信息量的样本,例如靠近决策边界的样本(如Borderline-SMOTE [12])或难以学习的样本(如ADASYN [13])。在这些基础上,最近的进展引入了更复杂的机制。Islam等人[14]提出了KNNOR,这是一种基于密度的方法,用于识别安全的和关键的增强区域以提高抗噪声能力。随着深度学习的发展,Guan等人[15]引入了AWGAN,这是一种利用生成对抗网络(GAN)的自适应加权过采样方法。值得注意的是,最近的研究开始利用进化计算(EC)进行自主样本生成。例如,Cui等人[16]提出了MTGP-SMOTE,该方法使用多树遗传编程。与传统依赖于固定邻域结构的方法不同,MTGP-SMOTE可以自主生成高质量、多样化的样本,展示了EC在捕捉复杂少数类分布方面的潜力。
混合方法试图将采样与其他学习范式或优化技术结合起来。Seiffert等人[17]证明,结合过采样和欠采样通常可以通过平衡各自的缺点来获得更好的性能。在此基础上,Sun等人[18]将模糊逻辑与混合采样相结合,设计了一种自适应的模糊多邻域特征选择方法,有效处理边界不确定性。进化算法也被广泛集成到混合框架中。Zhu等人[19]提出了进化混合采样(EHSO)技术,利用进化算法优化多数类样本删除和少数类样本合成之间的权衡。在成本敏感学习领域,Rosales-Perez等人[20]引入了一种双层进化方法(EBCS-SVM),同时优化SVM超参数和支持向量。此外,Ding等人[21]提出了一种结合KNN的表格辅助分类器GAN(TACGAN)用于入侵检测。最近,Ding等人[22]通过提出一种多阶段特征选择算法扩展了混合进化方法,该算法结合了群体智能(PSO和GWO)和多任务学习,强调了进化策略在该领域的多功能性。
尽管取得了这些进展,但合成高质量和多样化的少数类样本仍然是一个基本挑战[23]。尽管像生成对抗网络(GAN)和变分自编码器(VAE)这样的深度生成模型已经展示了捕捉非线性分布的能力,但它们在处理不平衡数据时遇到了重大障碍。这些模型通常需要大规模的数据集来学习稳定的表示,因此不适合数据极度稀缺的少数类[24]。此外,它们经常遭受训练不稳定(例如模式崩溃)[25]的问题,并且缺乏保证生成样本在决策边界附近安全的明确机制[26]。
大多数传统方法(如SMOTE、ADASYN等)遵循基于局部邻域内线性插值的合成范式,但这存在两个关键限制。首先,在高维特征空间或类别重叠严重的区域,传统的基于距离的邻域定义变得不可靠且可能具有误导性[27]。这会妨碍对有信息量样本的准确识别。其次,线性插值本质上将合成样本限制在现有样本的凸包内,无法捕捉潜在的非线性数据流形。这一限制不仅降低了样本的多样性,还可能通过引入噪声和加剧类别重叠来降低分类器的性能[28]。
综合这些观察结果,我们发现了一个关键的研究空白:当前的方法缺乏一种能够同时捕捉少数类全局多模态结构并在局部流形中实现灵活、非线性样本生成的层次化框架。现有的解决方案要么通过线性假设简化数据几何结构,要么需要大量数据来学习复杂分布,因此需要一种高效、结构感知的进化生成机制。
为了克服现有过采样技术的固有局限性,本文提出了一种名为GMM-DifficultyEvaluation-GA(GDG)的新框架,它引入了一种层次化的、两阶段的自适应合成范式。与传统的单步插值方法不同,我们的方法首先从宏观到微观的角度出发,捕捉少数类的全局结构特征,然后在严格定义的搜索空间内进行局部进化合成。
在宏观层面上,GDG通过利用高斯混合模型(GMM)将少数类划分为统计上连贯的子簇,从而解决了不可靠的邻域结构问题。这种分解提供了一个原则性的全局背景,使得可以根据簇的密度和与决策边界的接近程度来战略性地分配合成采样资源。这确保了生成的样本集中在既稀疏又关键的区域,从而保留了数据的内在分布特性。
在微观层面上,GDG通过使用遗传算法(GA)作为非线性进化合成机制,克服了线性插样的局限性。GA在局部定义的受限搜索区域内进化候选样本,该搜索区域被建模为围绕一个种子样本及其邻居的超球体。这使得能够灵活地非线性探索少数类数据流形。在动态的多目标适应度函数的指导下,优化同时关注分布真实性、样本多样性和在细化分类器决策边界方面的实用性。这种自上而下的层次化合成策略确保生成的样本在局部上具有现实性,并在全局上与少数类分布保持一致。
本文的主要贡献总结如下:
- 1.
引入了一种由高斯混合模型(GMM)指导的两阶段策略,将少数类分解为语义上一致的子簇,并根据簇的密度和边界复杂性设计了全面的权重。这种方法摒弃了对少数类样本的统一处理方式,专注于在决策边界附近的稀疏区域生成样本,以更好地保留数据几何结构并提高对噪声和异常值的鲁棒性。
- 2.
我们提出了一种新的综合难度度量标准,该标准结合了局部邻域的杂质、基于模型的不确定性和与决策边界的接近程度,以稳健地评估样本难度。这一度量标准结合了几何和概率洞察力,更准确地识别出具有挑战性但信息量大的样本,这对于分类器的改进至关重要。
- 3.
我们引入了一种在局部受限搜索区域内运行的遗传算法,该算法由多目标适应度函数指导,同时考虑了分布真实性、样本多样性和边界感知质量。自适应加权机制在代际之间平衡了探索和利用,从而生成了高质量、能够有效捕捉非线性流形并改善分类边界的合成样本。
本文的其余部分组织如下。第2节简要介绍了相关背景知识。第3节详细介绍了提出的GDG方法。第4节展示并分析了全面的实验结果。最后,第5节对本文进行了总结。