
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于检测金融欺诈防范中时间漂移的强大机器学习框架
《Scientific Reports》:A robust machine learning framework for detecting temporal drift in financial fraud prevention
【字体: 大 中 小 】 时间:2026年06月19日 来源:Scientific Reports 3.9
编辑推荐:
摘要信用卡欺诈检测是一项极具挑战性的应用机器学习问题。它面临着严重的类别不平衡、时间上的非稳定性,以及漏检欺诈与误报之间的巨大成本差异。本文针对欧洲交易基准数据集(共284,807笔交易,欺诈发生率为0.173%)提出了一个端到端的欺诈检测实验框架。在整个实验过程中严格遵循无数据
信用卡欺诈检测是一项极具挑战性的应用机器学习问题。它面临着严重的类别不平衡、时间上的非稳定性,以及漏检欺诈与误报之间的巨大成本差异。本文针对欧洲交易基准数据集(共284,807笔交易,欺诈发生率为0.173%)提出了一个端到端的欺诈检测实验框架。在整个实验过程中严格遵循无数据泄露原则。数据按时间顺序分为训练集(70%)、验证集(15%)和测试集(15%),所有的预处理步骤——包括特征缩放、基于SHapley加性解释的特征选择以及过采样——都仅在训练集上执行。从原始时间戳中提取了两个与领域相关的特征(正弦波形小时编码和对数变换后的金额),并通过SHAP分析将33维的特征空间简化为15个特征。研究了六种过采样策略——SMOTE、BorderlineSMOTE、SVMSMOTE、ADASYN、SMOTEENN和SMOTETomek——并将其应用于12种传统分类器、3种多层感知器架构、一种专门设计的深度神经网络(FraudNet)以及7种集成方法,共形成了85种模型与过采样策略的组合。使用\(F_2\)分数在验证集上调整决策阈值,所有最终指标均在独立的测试集上计算。为明确体现时间漂移现象,我们利用人口稳定性指数(PSI)、Kolmogorov–Smirnov检验以及基于SHAP选定特征的Jensen–Shannon散度来衡量不同数据分割之间的分布变化。此外,还对最优配置给出了1000次重复仿真的95%置信区间。未采用过采样的128-64-32结构的多层感知器达到了最高的\(F_2\)分数,值为0.7722(95%置信区间:[0.6712, 0.8420])。软投票集成方法获得了最佳的 Matthews相关系数,值为0.8060(95%置信区间:[0.7045, 0.8807]),其AUC值则为0.9703。在SMOTEENN策略下,LightGBM的性能提升最为显著,其\(F_2\)分数从0.0745上升到了0.7588。ADASYN方法的性能则一直较差,没有哪种过采样策略能在所有模型类型中都表现最佳。漂移分析表明,不同数据分割之间确实存在可测量的但幅度较小的分布变化。由于该数据集仅涵盖48小时的数据,这类变化主要反映的是短期的、同日内的波动,而非实际应用中常见的长期概念漂移;因此我们将这种按时间顺序处理数据的方法视为一种方法论上的下限,并在全文中不断强调这一限制。综上所述,这些研究结果为在严格的时间和数据完整性约束下设计实用的欺诈检测系统提供了指导。
生物通微信公众号