自适应数据质量监控:一种用于流式数据完整性的综合框架

《IEEE Access》:Adaptive Data Quality Monitoring: A Comprehensive Framework for Streaming Data Integrity

【字体: 时间:2026年04月30日 来源:IEEE Access 3.6

编辑推荐:

  摘要:实时流处理管道在数据驱动的产品决策中变得越来越重要,然而关于数据质量的文献主要集中在批处理系统上。我们提出了ADQM(自适应数据质量监控器),这是一个用于连续、多维度监控高吞吐量事件流的框架。ADQM通过滑动窗口评估四个质量维度(完整性、新鲜度、准确性和一致性),并通过调和

  

摘要:

实时流处理管道在数据驱动的产品决策中变得越来越重要,然而关于数据质量的文献主要集中在批处理系统上。我们提出了ADQM(自适应数据质量监控器),这是一个用于连续、多维度监控高吞吐量事件流的框架。ADQM通过滑动窗口评估四个质量维度(完整性、新鲜度、准确性和一致性),并通过调和平均值(对最弱维度特别敏感)将它们组合成一个综合得分,并应用基于指数加权移动平均(EWMA)的统计过程控制来区分真正的质量下降和测量噪声。蒙特卡洛传播模块估计每个检测到的缺陷对下游消费者的影响。我们在一个合成的大规模流事件流上评估了ADQM(每次运行10,000个事件,持续吞吐量为11,574个事件/秒),涵盖了五种缺陷类型,并进行了50次独立的模拟运行。ADQM在所有缺陷类型上实现了100%的检测率,假阳性率(FPR)为1.6%±0.8%,相比静态10.2×基线(16.4%)有17.9×的改进,同时在保持4690万事件/秒的吞吐量的同时(4,058×),这比目标生产率有λ=0.20的余量。通过对1,500次额外模拟运行的超参数敏感性分析,证明了默认配置是合理的(W=200)。使用Wilcoxon符号秩检验和Bonferroni校正进行的组件消融实验确认,EWMA自适应阈值是减少假阳性的主要因素(Cohen的d=5.295p<0.001)。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号